数字化年代企业建立大数据和机器学习战略并通过Greenplum生态落地

大数据和机器学习：未来企业终极竞争点

《Cloud Foundry：从数字化战略到实现》著作当中的第二章节中我们阐述了汽车行业数字化的方方面面。假设20年以后，所以企业都完成了数字化变革，建立了数字化的基础设施，数据的协作方式也更加合理。在那个阶段，企业核心能力就建立在数据的分析能力上。作为一个汽车企业，我们能想象到的差异可能在机器学习上。例如无人驾驶，用户不再图新鲜感，安全性的比较可能是实打实的。如果一个车企的安全系数比另外一个车企高一点点就能获得极大优势。作为智能维护，汽车保养的报警的误报率下降一点点可能就有优势。作为一个客运公司，能够第一时间满足用户的用车请求，调度算法不仅仅发生在调度请求进来以后，更随时随地的根据人群的密集度在调配自己的车队。

金融行业对于公开市场上的大数据和机器学习的竞争其实在今天早就广泛展开了。金融模型在无时无刻不停地计算各个公开市场资产的套利机会，因此各种套利机会稍纵即逝。所以券商和投行很早就有雇佣大量物理数学博士量化分析师(Quants)的习惯。今天发生的比较有意思的事情就是大数据和机器学习在影响传统银行业，特别是小额贷款。传统的商业银行一般利用政府担保的固定利息获取存款，然后利用和大企业关系获取贷款投资给对方的机会。传统的商业银行在大额贷款方面可以有专员去做风险评估，但是对于小额贷款而言，这样人工评估的零售成本是无法承受的。反而是存储有大量用户交易、购物和社交数据的互联网企业，根据大数据和机器学习模型很容易在用户贷款请求进行风险打分评估而快速放款投资。另外，随着知识密集企业的兴起，传统的资产抵押融资慢慢转变为股权融资，大量的私募投资的兴起，也给商业银行获得储蓄带来挑战。大型的私募基金通常有大量的行业分析师，他们逐步建立起一个行业知识系统，对于股权融资企业的风险模型越发精准。作者也曾给一些商业银行提过战略建议，建议他们围绕现有的用户（存方和贷方）数据的动态来外推那些需要股权融资的企业的风险分数来获得低风险投资机会，在投资有效的情况下募资也必然容易。本质上说，金融机构的主要职责是资源分配，它要获得竞争优势，势必上游获取资金机会和下游获得投资机会。根据现有的用户数据，作出精度高于竞争对手的模型可以更好的捕捉这些机会。国内不少知名的商业银行已经纷纷成立科技公司应对互联网企业和私募行业利用大数据的两面夹击。

在数字化之前的社会，很多通过信息垄断获得套利。就像传统银行家留给我们的形象就是一边说服VIP客户存钱，一边社交获取项目机会。虽然我们对于商人投机取巧建立财富感到不公平，但是经济学又说这是无可厚非——从资源配置角度上这是必须的。但是深究一下，事实上这里的不公平来自于信息的获取。随着数字化程度的加深，信息流通和获取在越发改善。这就是Eric Schmit的书《How Google Works 》提到的，以前离交易越近的地方获取报酬越多，现在慢慢转变为离产品越近的人获取报酬更多。因为前者优势建立在信息垄断上，后者优势建立在信息的处理和再加工。

大数据设施建设的必要性

在谈大数据基础数字设施建设之前，我们先看看其它的物理基础设施。2008年的时候，我假期从美国回到中国，看到中国正在飞速发展的高速路和高铁的基础设施建设。当时正值美国房产泡沫危机，雷曼兄弟公司倒闭。我在想中国这些设施的建设是以刺激经济为目标呢，还是以应用(例如电子商务和春运)需求满足为目标，或者兼而有之？经过10年的建设，我们看到很多不可能成为可能。一个游客乘坐高铁可以在10多个小时从一个城市到达另外中国大部分城市，京东的物流可以12小时内投递产品（相比之下美国的亚马逊需要24到48小时）。10年前一个做鲜活产品的企业的直觉可能是，鲜活产品怎么也不可能在线上，那么今天他们已经面临线上的巨大竞争。

中国基础设施蓬勃发展的时候，其实美国在泡沫之下的云计算基础设施也在蓬勃发展。谷歌在2006年提出云计算的概念以后，亚马逊推出了第一款公有云计算服务AWS，虽然分析界并不看好，但是硅谷公司确实看到了一个基础设施带来的时代变更。我那时候在甲骨文公司(Oracle)的服务器技术部门从事网格计算的资源调控(Grid Control)。甲骨文虽然在一开始没有看明白云计算的含义，Larry Ellison开玩笑说他的赛艇也在云上。但是2007年的时候甲骨文看到了时代变更，我们网格计算部门也开始大规模部署到云计算，为甲骨文云计算奠定基础。2010年我回国的时候，阿里云已经在虹桥机场附近树立了云计算的广告牌，到今天腾讯云、阿里云和华为云将中国云基础设施推入新高潮。记得我08年那时候采访一些商业企业关于中国企业对于云计算的接受度，他们普遍认为谁也不会把自己的软件运行在外部。而2017年阿里云的营收额达到了66亿人民币（美国的亚马逊云更达到了180亿美元之巨）。公有云已经成了企业的影子IT部门（意思就是说企业自己的IT部门做得不好的话，业务部门就会采购公有云。）

如果我现在谈公有云基础设施和交通基础设施可能有些事后诸葛亮的感觉的话，那么我们回归到这篇博文的正题——大数据和机器学习，它们是当今世界正在发生的一个如火如荼的数字化基础设施的建设。如果说中国在交通基础设施和云基础设施在紧跟美国(虽然今天我们的高铁网可能领先美国属于跃背(leapfrog)效应，但是还是要记得美国的高速公路的完成远领先于中国几十年)，在大数据基础和机器学习基础设施的建设上，中国可以说和美国都是齐头并进。

在前面的《ABC关系》讨论中我们以经提过机器模型是一个特定类型的数学模型。这些模型随着数据量的上升精度都有提高。所以我们可以看到未来企业的竞争要么在模型上，要么在数据上，要么兼而有之。模型的基础理论研究能力对于大量普通机构是难于建立的，而且学术机构一旦在模型上所有突破也很快就会对所有机构开放。所以企业在竞争机器学习的时候，大数据基础竞争更为关键。大数据基础设施建设是企业可以操作而且必须操作的。进取企业为了在未来竞争获得优势，今天开始已经脚踏实地建设大数据基础设施。建设大数据基础设施，不仅是支持现有的机器学习应用，也为现在尚未知道的未来模型做好准备。就好像我们在做高铁和高速路的时候，虽然没有预见今天形形色色的快递，但是却为今天的物流创新做了准备。

大数据和机器学习的未来眺望

大数据基础设施用来存取企业和用户数据。可以从企业和消费者两个角度上看，企业会使用Greenplum等软件把企业的运营数据，和产品/服务相关的用户数据存储起来。用户个人的数据通常是在互联网上完成，例如搜索应用、邮件应用、社交应用和网盘应用。个人通过免费和付费服务使用互联网公司的共享基础设施。

数据基础设施越来越完善是一方面：企业和用户数据不再删除、也不在丢失，哪怕在一些天灾人祸的情况下（火灾地震），数据都有异地灾备能力。数据的组织也更加便于访问。数据的访问速度也在继续提高。

数据合作的生产关系越发合理也是基础建设的另外一面：数据贡献者应该像生产资料的贡献者一样获得数据应用价值带来的应有收益。数据资源就好像生产资料，所以社会的前进，生产资料的分配也必然更加合理。目前企业这端对于数据资料有很好的保管。但是用户这边的数据聚集在互联网的几个核心应用上。在大家没有认识到数据价值之前，几个互联网巨头承担巨额亏损获取用户数据，然后在数据上实现价值至少看上去是风险收益对称的。但是随着巨头无节制不经用户授权使用他们数据变现的做法越发会受到立法约束【参考人民网评论数据使用】。更合理的合作方式可能是用户作为数据的贡献者提供生产资料，应该获得生产资料合理的边际收益【参考：微观经济学概念】，就好像早期土地拥有者把土地提供给工厂，土地应该获得应对的边际收益。区块链技术在数据合作关系的合理性上又往前了一步。【更多探讨区块链技术】

作者：Pivotal冯雷  [如需转载请注明本文URL]
https://digitx.cn/2018/01/22/bigdata-strategy-with-greenplum/]

数字化时代的企业进取心精神：建立大数据和机器学习战略

大数据和机器学习：未来企业终极竞争点

大数据设施建设的必要性

大数据和机器学习的未来眺望

发表评论取消回复

大数据和机器学习：未来企业终极竞争点

大数据设施建设的必要性

大数据和机器学习的未来眺望

发表评论 取消回复

发表评论取消回复