ABC的关系(节选自《Greenplum:从大数据战略到实现》)

ABC是业内对于人工智能(Artificial Intelligence、即AI),大数据(Big Data)和云计算(Cloud Computing)在三种技术的首字母缩写。这篇文章希望能够在大数据的角度上解释ABC的关系,并且展望大数据战略对于企业、机构和社会重要性。

ABC三种技术在最近10年在资本和媒体的的热度顺序为:云计算、大数据和人工智能。而事实上技术的产生的顺序确是反过来的,人工智能最早, 大数据其次,而云计算是最后出现的。在数字化三部曲的第一部《Cloud Foundry:从数字化战略到实现》著作中作者详细阐述了云计算。云计算带来的巨大好处就是提供商品化的计算资源,以前只有政府和500强企业才能拥有的巨大计算资源,现在可以被一个创业公司所拥有。这个量变到质变的过程使得我们可以重新访问一些计算机行业的难题。(一般来说,我们不比前人聪明,但是我们会在量变到质变的过程中有些机会重新访问前人没有机会解决的问题。)计算资源的富裕使得大数据技术能能够以更低的门槛平民化。Pivotal Cloud Foundry 2.0的一个研发重点就是利用容器技术把Greenplum提供到云上。2016年底Pivotal和阿里云联合发布了基于开源Greenplum的HybridDB大数据库(环球网,《HybridDB正式上线 支持Greenplum大数据服务》2016年12月,http://china.huanqiu.com/citynews/2016-12/9816235.html)。2017年底Pivotal又和腾讯云合作把开源Greenplum提供到腾讯云上(冯雷,《Pivotal和腾讯云在Greenplum5上合作背后的考量》2017年12月 https://digitx.cn/2017/12/24/pivotal-tencent-greenplum5-partnership/)云计算平民化了大数据,使得大数据技术广为企业所采用,企业也利用大数据养成了保管数据的习惯,把数据当作未被开采的资源。大数据的普及给人工智能的最新分之机器学习带来了意向不到的惊喜。谷歌研究院的F. Pereira, P. Norvig and A. Halevy发表了一片文章《数据的奇效》(Fernando. Pereira, Peter Norvig and Alon Halevy, The Unreasonable Effectiveness of Data, IEEE Intelligent Systems, vol. 24, no. , pp. 8-12, 2009)。解释了大量数据对于(机器学习)模型带来的准确率的提高。Norvig也是《人工智能:一种现代的方法》一书的联合作者。早在谷歌之前,微软研究院的Michele Banko和Eric Brill在他们的论文《扩展到非常非常大文本来去除自然语言歧义》( Banko and Brill, Scaling to Very Very Large Corpora for Natural Language Disambiguation, Proceedings of ACL, 2001)中采用了如[图xx]展示了使用海量数据后各个机器模型的准确率都有大幅度提高。大量数据对模型精确程度的提高对于人工智能(机器学习)的问题求解给出了一个新方向:用大量数据和大数据计算来提高人工智能的结果。

大家对比一下自然语言翻译在最近10年的利用大数据和计算进展就能感觉到这种力量。总结一下,现在我们有两条路在人工智能方向前进:

1. 设计新的机器学习模型,在前人的模型上有所创新,改进模型效果

2. 使用已经有的机器学习模型,但是利用前人所没有的数据量和云计算带来的大数据计算来改进模型效果。

谷歌的Norvig曾经谈到“我们没有更好的算法,但是有更多的数据”(Xavier Amatriain,In Machine Learning, What is Better: More Data or better Algorithms, https://www.kdnuggets.com/2015/06/machine-learning-more-data-better-algorithms.html,2015)

明显的Norvig是在鼓励沿第二种方法进行创新,当然这不等于说第一种方法的创新就不重要。但是我想要指出的第一种方法的创新门槛要远高于第二种,除了世界顶级的机构,普通机构很难建立所需要的资金、人才和配套的管理和文化来支撑第一种创新方法。但是第二种方法对于传统的机构是可以重复和实践的,按照已经有的方法论、成功案例和人才培训实现基于大数据和机器学习的高阶数字化转型。

总结一下ABC的关系如下[图xx]所示,C(云计算)从量变到质变带来前所未有和平民化的计算资源。企业和互联网在数字化应用产生了大量的数据。这些数据和计算能力使得大数据技术普及到普通机构,而这些机构利用大数据来创建和改善现有的机器学习模型,带来更好的人工智能效果。

 

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注