数字化时代的企业进取心精神:建立大数据和机器学习战略

大数据和机器学习:未来企业终极竞争点


《Cloud Foundry:从数字化战略到实现》著作当中的第二章节中我们阐述了汽车行业数字化的方方面面。假设20年以后,所以企业都完成了数字化变革,建立了数字化的基础设施,数据的协作方式也更加合理。在那个阶段,企业核心能力就建立在数据的分析能力上。作为一个汽车企业,我们能想象到的差异可能在机器学习上。例如无人驾驶,用户不再图新鲜感,安全性的比较可能是实打实的。如果一个车企的安全系数比另外一个车企高一点点就能获得极大优势。作为智能维护,汽车保养的报警的误报率下降一点点可能就有优势。作为一个客运公司,能够第一时间满足用户的用车请求,调度算法不仅仅发生在调度请求进来以后,更随时随地的根据人群的密集度在调配自己的车队。

金融行业对于公开市场上的大数据和机器学习的竞争其实在今天早就广泛展开了。金融模型在无时无刻不停地计算各个公开市场资产的套利机会,因此各种套利机会稍纵即逝。所以券商和投行很早就有雇佣大量物理数学博士量化分析师(Quants)的习惯。今天发生的比较有意思的事情就是大数据和机器学习在影响传统银行业,特别是小额贷款。传统的商业银行一般利用政府担保的固定利息获取存款,然后利用和大企业关系获取贷款投资给对方的机会。传统的商业银行在大额贷款方面可以有专员去做风险评估,但是对于小额贷款而言,这样人工评估的零售成本是无法承受的。反而是存储有大量用户交易、购物和社交数据的互联网企业,根据大数据和机器学习模型很容易在用户贷款请求进行风险打分评估而快速放款投资。另外,随着知识密集企业的兴起,传统的资产抵押融资慢慢转变为股权融资,大量的私募投资的兴起,也给商业银行获得储蓄带来挑战。大型的私募基金通常有大量的行业分析师,他们逐步建立起一个行业知识系统,对于股权融资企业的风险模型越发精准。作者也曾给一些商业银行提过战略建议,建议他们围绕现有的用户(存方和贷方)数据的动态来外推那些需要股权融资的企业的风险分数来获得低风险投资机会,在投资有效的情况下募资也必然容易。本质上说,金融机构的主要职责是资源分配,它要获得竞争优势,势必上游获取资金机会和下游获得投资机会。根据现有的用户数据,作出精度高于竞争对手的模型可以更好的捕捉这些机会。国内不少知名的商业银行已经纷纷成立科技公司应对互联网企业和私募行业利用大数据的两面夹击。

在数字化之前的社会,很多通过信息垄断获得套利。就像传统银行家留给我们的形象就是一边说服VIP客户存钱,一边社交获取项目机会。虽然我们对于商人投机取巧建立财富感到不公平,但是经济学又说这是无可厚非——从资源配置角度上这是必须的。但是深究一下,事实上这里的不公平来自于信息的获取。随着数字化程度的加深,信息流通和获取在越发改善。这就是Eric Schmit的书《How Google Works 》提到的,以前离交易越近的地方获取报酬越多,现在慢慢转变为离产品越近的人获取报酬更多。因为前者优势建立在信息垄断上,后者优势建立在信息的处理和再加工。

大数据设施建设的必要性


在谈大数据基础数字设施建设之前,我们先看看其它的物理基础设施。2008年的时候,我假期从美国回到中国,看到中国正在飞速发展的高速路和高铁的基础设施建设。当时正值美国房产泡沫危机,雷曼兄弟公司倒闭。我在想中国这些设施的建设是以刺激经济为目标呢,还是以应用(例如电子商务和春运)需求满足为目标,或者兼而有之?经过10年的建设,我们看到很多不可能成为可能。一个游客乘坐高铁可以在10多个小时从一个城市到达另外中国大部分城市,京东的物流可以12小时内投递产品(相比之下美国的亚马逊需要24到48小时)。10年前一个做鲜活产品的企业的直觉可能是,鲜活产品怎么也不可能在线上,那么今天他们已经面临线上的巨大竞争。

中国基础设施蓬勃发展的时候,其实美国在泡沫之下的云计算基础设施也在蓬勃发展。谷歌在2006年提出云计算的概念以后,亚马逊推出了第一款公有云计算服务AWS,虽然分析界并不看好,但是硅谷公司确实看到了一个基础设施带来的时代变更。我那时候在甲骨文公司(Oracle)的服务器技术部门从事网格计算的资源调控(Grid Control)。甲骨文虽然在一开始没有看明白云计算的含义,Larry Ellison开玩笑说他的赛艇也在云上。但是2007年的时候甲骨文看到了时代变更,我们网格计算部门也开始大规模部署到云计算,为甲骨文云计算奠定基础。2010年我回国的时候,阿里云已经在虹桥机场附近树立了云计算的广告牌,到今天腾讯云、阿里云和华为云将中国云基础设施推入新高潮。记得我08年那时候采访一些商业企业关于中国企业对于云计算的接受度,他们普遍认为谁也不会把自己的软件运行在外部。而2017年阿里云的营收额达到了66亿人民币(美国的亚马逊云更达到了180亿美元之巨)。公有云已经成了企业的影子IT部门(意思就是说企业自己的IT部门做得不好的话,业务部门就会采购公有云。)

如果我现在谈公有云基础设施和交通基础设施可能有些事后诸葛亮的感觉的话,那么我们回归到这篇博文的正题——大数据和机器学习,它们是当今世界正在发生的一个如火如荼的数字化基础设施的建设。如果说中国在交通基础设施和云基础设施在紧跟美国(虽然今天我们的高铁网可能领先美国属于跃背(leapfrog)效应,但是还是要记得美国的高速公路的完成远领先于中国几十年),在大数据基础和机器学习基础设施的建设上,中国可以说和美国都是齐头并进。

在前面的《ABC关系》讨论中我们以经提过机器模型是一个特定类型的数学模型。这些模型随着数据量的上升精度都有提高。所以我们可以看到未来企业的竞争要么在模型上,要么在数据上,要么兼而有之。模型的基础理论研究能力对于大量普通机构是难于建立的,而且学术机构一旦在模型上所有突破也很快就会对所有机构开放。所以企业在竞争机器学习的时候,大数据基础竞争更为关键。大数据基础设施建设是企业可以操作而且必须操作的。进取企业为了在未来竞争获得优势,今天开始已经脚踏实地建设大数据基础设施。建设大数据基础设施,不仅是支持现有的机器学习应用,也为现在尚未知道的未来模型做好准备。就好像我们在做高铁和高速路的时候,虽然没有预见今天形形色色的快递 ,但是却为今天的物流创新做了准备。

大数据和机器学习的未来眺望


大数据基础设施用来存取企业和用户数据。可以从企业和消费者两个角度上看,企业会使用Greenplum等软件把企业的运营数据,和产品/服务相关的用户数据存储起来。用户个人的数据通常是在互联网上完成,例如搜索应用、邮件应用、社交应用和网盘应用。个人通过免费和付费服务使用互联网公司的共享基础设施。

数据基础设施越来越完善是一方面:企业和用户数据不再删除、也不在丢失,哪怕在一些天灾人祸的情况下(火灾地震),数据都有异地灾备能力。数据的组织也更加便于访问。数据的访问速度也在继续提高。

数据合作的生产关系越发合理也是基础建设的另外一面:数据贡献者应该像生产资料的贡献者一样获得数据应用价值带来的应有收益。数据资源就好像生产资料,所以社会的前进,生产资料的分配也必然更加合理。目前企业这端对于数据资料有很好的保管。但是用户这边的数据聚集在互联网的几个核心应用上。在大家没有认识到数据价值之前,几个互联网巨头承担巨额亏损获取用户数据,然后在数据上实现价值至少看上去是风险收益对称的。但是随着巨头无节制不经用户授权使用他们数据变现的做法越发会受到立法约束【参考人民网评论数据使用】。更合理的合作方式可能是用户作为数据的贡献者提供生产资料,应该获得生产资料合理的边际收益【参考:微观经济学概念】,就好像早期土地拥有者把土地提供给工厂,土地应该获得应对的边际收益。 区块链技术在数据合作关系的合理性上又往前了一步。【更多探讨区块链技术】

 

作者:Pivotal冯雷  [如需转载请注明本文URL]
http://digitx.cn/2018/01/22/bigdata-strategy-with-greenplum/]

 

ABC的关系(节选自《Greenplum:从大数据战略到实现》)

ABC是业内对于人工智能(Artificial Intelligence、即AI),大数据(Big Data)和云计算(Cloud Computing)在三种技术的首字母缩写。这篇文章希望能够在大数据的角度上解释ABC的关系,并且展望大数据战略对于企业、机构和社会重要性。

ABC三种技术在最近10年在资本和媒体的的热度顺序为:云计算、大数据和人工智能。而事实上技术的产生的顺序确是反过来的,人工智能最早, 大数据其次,而云计算是最后出现的。在数字化三部曲的第一部《Cloud Foundry:从数字化战略到实现》著作中作者详细阐述了云计算。云计算带来的巨大好处就是提供商品化的计算资源,以前只有政府和500强企业才能拥有的巨大计算资源,现在可以被一个创业公司所拥有。这个量变到质变的过程使得我们可以重新访问一些计算机行业的难题。(一般来说,我们不比前人聪明,但是我们会在量变到质变的过程中有些机会重新访问前人没有机会解决的问题。)计算资源的富裕使得大数据技术能能够以更低的门槛平民化。Pivotal Cloud Foundry 2.0的一个研发重点就是利用容器技术把Greenplum提供到云上。2016年底Pivotal和阿里云联合发布了基于开源Greenplum的HybridDB大数据库(环球网,《HybridDB正式上线 支持Greenplum大数据服务》2016年12月,http://china.huanqiu.com/citynews/2016-12/9816235.html)。2017年底Pivotal又和腾讯云合作把开源Greenplum提供到腾讯云上(冯雷,《Pivotal和腾讯云在Greenplum5上合作背后的考量》2017年12月 https://digitx.cn/2017/12/24/pivotal-tencent-greenplum5-partnership/)云计算平民化了大数据,使得大数据技术广为企业所采用,企业也利用大数据养成了保管数据的习惯,把数据当作未被开采的资源。大数据的普及给人工智能的最新分之机器学习带来了意向不到的惊喜。谷歌研究院的F. Pereira, P. Norvig and A. Halevy发表了一片文章《数据的奇效》(Fernando. Pereira, Peter Norvig and Alon Halevy, The Unreasonable Effectiveness of Data, IEEE Intelligent Systems, vol. 24, no. , pp. 8-12, 2009)。解释了大量数据对于(机器学习)模型带来的准确率的提高。Norvig也是《人工智能:一种现代的方法》一书的联合作者。早在谷歌之前,微软研究院的Michele Banko和Eric Brill在他们的论文《扩展到非常非常大文本来去除自然语言歧义》( Banko and Brill, Scaling to Very Very Large Corpora for Natural Language Disambiguation, Proceedings of ACL, 2001)中采用了如[图xx]展示了使用海量数据后各个机器模型的准确率都有大幅度提高。大量数据对模型精确程度的提高对于人工智能(机器学习)的问题求解给出了一个新方向:用大量数据和大数据计算来提高人工智能的结果。

大家对比一下自然语言翻译在最近10年的利用大数据和计算进展就能感觉到这种力量。总结一下,现在我们有两条路在人工智能方向前进:

1. 设计新的机器学习模型,在前人的模型上有所创新,改进模型效果

2. 使用已经有的机器学习模型,但是利用前人所没有的数据量和云计算带来的大数据计算来改进模型效果。

谷歌的Norvig曾经谈到“我们没有更好的算法,但是有更多的数据”(Xavier Amatriain,In Machine Learning, What is Better: More Data or better Algorithms, https://www.kdnuggets.com/2015/06/machine-learning-more-data-better-algorithms.html,2015)

明显的Norvig是在鼓励沿第二种方法进行创新,当然这不等于说第一种方法的创新就不重要。但是我想要指出的第一种方法的创新门槛要远高于第二种,除了世界顶级的机构,普通机构很难建立所需要的资金、人才和配套的管理和文化来支撑第一种创新方法。但是第二种方法对于传统的机构是可以重复和实践的,按照已经有的方法论、成功案例和人才培训实现基于大数据和机器学习的高阶数字化转型。

总结一下ABC的关系如下[图xx]所示,C(云计算)从量变到质变带来前所未有和平民化的计算资源。企业和互联网在数字化应用产生了大量的数据。这些数据和计算能力使得大数据技术普及到普通机构,而这些机构利用大数据来创建和改善现有的机器学习模型,带来更好的人工智能效果。