我想从自身的数据工作历程,讲述对我数据和平台的看法。总结一些经验,并且分析在新的热潮下,数据时代基础平台的展望。主要体现传统大数据领域为何探索数据交换,遇到的核心问题,以及在区块链中如何解决这些问题。
初碰大数据
我是从08年开始接触大数据,当时是替焦点网做一个分析平台,预测广告主未来投放预算的倾向,为业务决策提供依据。用到了爬虫、数据挖掘的技术。尽管整体数据量和计算量不算大,但是多样性方面已经算是是大数据的一类典型应用。
第一次感受计算的震撼
09年朋友推荐加入了阿里云,当时叫集团研发院,开始负责一些分布式计算业务的落地。那时环境比较简陋,做一个应用需要把整个飞天代码checkout,测试环境部署也都需要自己写一些脚本去自动化。PG文件系统也很慢,速度只有百KB。就是在这样的环境下,我们搞出了第一个基于飞天的数据渲染项目——地图。这个项目算是第一次感受到用并行计算改变效率的震撼,在阿里第一次技术嘉年华,马云还亲自看了演示。
其实当时最大的感慨就是一个集群中同时设计OLTP和OLAP两种计算框架的价值。前者注重事务性,后者注重批量处理能力。这样的好处在于将各种计算需求可以在统一的调度体系下管理,使资源利用最大化,未来云计算的成本才能可控。尽管至今阿里云仍然为此目标努力,现在看来,这个架构的设计确实奠定了未来在大数据领域持续发展的基础。
奋战大数据计算
09年底开始尝试去替换支付宝和淘宝的数仓体系。这里要提一下,曾经博士说阿里云的愿景是成为数据分享第一平台,当时我完全不理解。深入淘宝数据业务之后,才逐渐意识到数据交换的意义。
当时为了解决淘宝数据平台计算需求,有个先遣队先把RAC集群换成了Hadoop集群,而我们的任务就是用飞天的SE_offl











