数字化时代的企业进取心精神:建立大数据和机器学习战略并通过Greenplum生态落地

在谈大数据基础数字设施建设之前,我们先看看其它的物理基础设施。2008年的时候,我那时候假期从美国回到中国,看到中国正在飞速发展的高速路和高铁的基础设施建设。当时正值美国房产泡沫危机,雷曼兄弟公司倒闭。我在想中国这些设施的建设刺激经济为目标呢,还是以应用(例如电子商务和春运)需求满足为目标,或者兼而有之?经过10年的建设,我们看到很多不可能成为可能。一个游客使用高铁可以在10多个小时从一个城市到达另外中国大部分城市,京东的物流可以12小时内投递产品(相比之下美国的亚马逊需要24到48小时)。10年前一个做鲜活产品的企业的直觉可能是鲜活产品怎么也不可能在线上,那么今天可能面临线上的巨大竞争。

中国基础设施蓬勃发展的时候,其实美国在泡沫之下的云计算基础设施也在蓬勃发展。谷歌在2006年提出云计算的概念以后,亚马逊推出了第一款公有云计算服务AWS,虽然分析界并不看好,但是硅谷公司确实看到了一个基础设施带来的时代变更。我那时候在甲骨文公司(Oracle)的服务器技术部门从事网格计算的资源调控(Grid Control)。甲骨文虽然在一开始没有看明白云计算的含义,Larry Ellison开玩笑说他的赛艇也在云上。但是2007年的时候甲骨文看到了时代变更,我们网格计算部门也开始大规模部署到云计算,为甲骨文云计算奠定基础。2010年我回国的时候阿里云已经在虹桥机场附近树立了云计算的广告牌,到今天腾讯云阿里云和华为云将中国云基础设施推入新高潮。记得我08年那时候采访一些商业企业关于中国企业对于云计算的接受度,他们普遍认为谁也不会把自己的软件运行在外部。而2017年阿里云的营收额达到了66亿人民币(美国的亚马逊云更达到了180亿美元之巨)。公有云已经成了企业的影子IT部门(意思就是说企业自己的IT部门做得不好的好,业务部门就会采购公有云。)

如果我现在谈公有云基础设施和交通基础设施可能有些事后诸葛亮的感觉的话,那么我们回归到这篇博文的正题—-大数据和机器学习,它们是当今世界正在发生的一个如火如荼的数字化基础设施的建设。如果说中国在交通基础设施和云基础设施在紧跟美国(虽然今天我们的高铁网可能领先美国属于leapfrog[?]效应,但是还是要记得美国的高速公路的完成远领先于中国几十年),在大数据基础和机器学习基础设施的建设上,中国可以说和美国都是齐头并进。

大数据和机器学习的未来眺望

【todo: 应该在前面的章节已经完成介绍机器模型是一个特地类型的数学模型】

大数据基础设施用来存取企业和和用户数据。可以从企业和消费者两个角度上看,企业会使用Greenplum等软件把企业的运营数据,和产品/服务相关的用户数据存储起来。用户个人的数据通常是在互联网上完成,例如搜索应用、邮件应用、社交应用和网盘应用。个人通过免费和付费服务使用互联网公司的共享基础设施。

数据基础设施越来越完善是一方面:企业和用户数据不再删除、也不在丢失,哪怕在一些天灾人祸的情况下(火灾地震),数据都有异地灾备能力。数据的组织也更加便于访问。数据的访问速度也在继续提高。

数据合作的生产关系越发合理也是基础建设的另外一面:数据贡献者应该像生产资料的贡献者一样获得数据应用价值带来的应有收益。数据资源就好像生产资料,所以社会的前进,生产资料的分配也必然更加合理。目前企业这端对于数据资料有很好的保管。但是用户这边的数据聚聚集在互联网的几个核心应用上。在大家没有认识到数据价值之前,几个互联网巨头承担巨额亏损获取用户数据,然后在数据上实现价值至上看上去是风险收益对称的。但是随着巨头无节制不经用户授权使用他们数据变现的做法越发会收到立法约束【参考人民网评论数据使用】。更合理的合作方式可能用户作为数据的贡献者提供生产资料,应该获得生产资料合理的边际收益【参考:微观经济学概念】,就好像早起土地拥有者把土地提供给工厂,土地应该获得应对的边际收益。 区块链技术在数据合作关系的合理性上又往前了一步。【更多探讨区块链技术】

假设20年以后,所以企业都完成了数字化变革,建立了数字化的基础设施,数据的协作方式也更加合理,那么企业和个人的核心能力就建立在数据的分析能力上。我们发挥想象力,假设一个大学城市规划的学生去政府城市计划和规划面试。根据数字化三部曲的第一步著作《Cloud Foundry:从数字化战略到实现》描述,那个时候大部分数字应用已经实现数字化世界和物理世界的数字化交互:例如红绿灯的等待时间可以用app配置、地铁网的车次调度可以用app配置、一些双向车道可以动态配置、一些无人公交车可以配置时间和路线。 那么政府面试学生的方式就非常简答和有效:给面试者一个数据计算的项目,让他根据现有的数据看看是否可以改进城市的拥堵。

假设一个面试者发现无人驾驶车的调度总是落后于城市人群拥挤。(例如静安区完凌晨4点有个Armin Van Bureen的演出结束突然拥堵,这个调车进去就落后于拥挤而造成正反馈恶化)。面试者可以设计一个人群热度预测模型,提前调度无人驾驶车在即将发生拥堵的地方等候,及时疏散人群。这个时候政府规划部门就可以把大型活动和无人驾驶公交系统进行关联改进交通系统。我们很容易理解这个面试者很快会被录用。

在数字化之前的社会,很多通过信息垄断获得套利。这个是我们对于商人投机倒把非常痛恨,但是经济学又说无可厚非。但是事实上这里的不公平来自于信息的获取。随着数字化程度的加深,信息流通流通获取在越发改善。父亲是议员的孩子去炒股获得成功的可能性更大,倒不是因为父亲透露了政策走向,而且提前知道当前在讨论的话题就已经获得优势。这就是Eric Schmit的书《How Google Works 》【quote】 提到,以前离交易越近的地方获取报酬越多,现在慢慢转变为离产品越近的人获取报酬更多。因为前者优势建立信息垄断优势上,后者优势建立在信息的处理和再加工。 数据集中透明和合理合作带来的变化同样发生在生活的很多细节上。例如过去我们总是强调演讲技巧,现在可能更多的强调言之有物。以前我们经常抱怨者演讲者语速太快或者音调太低,但是今天我们可以观看演讲视频,调高音量,以0.5倍速度播放或者以2倍速度播放。听众突然发现2倍速播放的视频演讲者虽然抑扬顿挫,但是你巴不得到结尾。以0.5倍播放的时候还要时时时刻刻暂停理解演讲者在说的内容,因为他是行业内专家,他的能力建立在他的行业数据的洞察上面。以后我们越来越难要求数据分析能力强的人向普通人屈就,而是反过来向他们屈就。不是他悄悄在我们耳朵说一句话我们毛塞顿开,而是他的稿子发表在外面,我们需要理解为何他的模型能够获得更好的结果。

 

working in progress — please don’t distribute it for now 【i might change the url as the update goes.】

//update 20180-02-04

//update 2018-01-22

作者:Pivotal冯雷  [如需转载请注明本文URL]
http://digitx.cn/2018/01/22/bigdata-strategy-with-greenplum/]

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注