Pivotal和腾讯云在Greenplum5上合作背后的考量

Greenplum5是我们第一个基于开源Greenplum的版本。Greenplum5从战略角度上看,我们就以下方面进行了加强 1)内核领先地位,2)#机器学习能力,3)全开源,4)支持主流云平台。

腾讯云副总裁王龙先生(左)和Pivotal中国总经理冯雷先生(右)在发布大会上
腾讯云副总裁王龙先生(左)和Pivotal中国总经理冯雷先生(右)在发布大会上

1)内核而言,Greenplum可谓是业内领先的MPP引擎。产品有Scott Yara和Luke Lonergan在2003年创立,中间引入了数据库行业的名人。2010年EMC收购Greenplum后,我们在北京创立中国研发中心。中国研发中心在国内引入大量北大清华和中科院体系的数据库人才持续创新。MapReduce和Hadoop兴起以后,我们把Greenplum的MPP引擎迁移到Hadoop系统上创建了Hadoop-native的HAWQ项目 (在Apache项目孵化)。另外,我们为Greenplum/HAWQ的优化器创建了#ORCA项目;我们为高级机器学习功能创建了#Madlib项目,Madlib已经成为Apache顶级开源项目。在@高小明,@姚延栋,@熊刚的努力下,我们特别低调发布的资源组功能,期望控制OLAP的资源使用,为混合负载数据库(Hybrid Transactional/Analytical Processing (HTAP) )奠定基础。创业的小伙伴可以尝试着在我们的资源组上往HTAP奔跑。

2)大数据和机器学习(人工智能/AI的一个重要分支)可谓同一个硬币的两个面。Greenplum帮助企业存储了大量数据,这些大数据和Greenplum的计算能力使得所有的机器学习算法(包括#神经网络和#深度学习)的精度都有不少提高,无论是#炼金术还是化学家都能取得更好结果。MADLib的库函数包括了主流的机器学习的数学模型,用户可以用几行简单的SQL语句就能进入机器学习的大门。 另外一方面,我们留意到不少数据科学家喜欢使用SQL以外的其他语言,特别是Python。为了使得数据科学家们继续使用他们喜欢的语言,Greenplum提供了一个容器环境支持运行这些科学计算语言,但是又能保证Greenplum的系统和数据安全。

3)如果说新一代企业把核心竞争力建立在大数据和包含机器学习在内的人工智能(AI)核心能力上,开源成为这些企业的必然要求。如果闭源,企业会被锁定在特定的软件供应商上。从Pivotal的角度上,开源帮助我们建立Greenplum的用户群并且平民化大数据、机器学习和人工智能。

4)既然开源能帮助平民化,为何还要支持多个主流云平台?开源是平民化的必要但不充分条件。一个企业尝试一个Greenplum,最起码也要购入几台硬件配置相当的服务器,安装开源Greenplum,导入数据,然后再用PLPython或者Madlib开发和运行模型。这样一套流程下来,少则几个礼拜,多则几个月。在美国的Amazon AWS、Microsoft Azure和Google Compute Engine提供云版本Geenplum后,我们和腾讯云和阿里云合作提供提供有预装的开源Greenplum环境和相应的数据导入工具。用户可以在一天内导入数据并运行模型,然后决定是否继续在开源环境预研还是和Pivotal进入商业合作运行商业系统。

腾讯云在AI的定位和发力,开放的合作态度,使得他们成为开源和商业Greenplum极佳的合作伙伴。我们非常感谢腾讯云和我们的合作。第三方可以根据自己的情况选择采用开源模式或者BYOL(Bring Your Own License)模式快速进入机器学习和人工智能的战略。

参考:

[IT168报道]

[CSDN报道]

[云栖说]

“Pivotal和腾讯云在Greenplum5上合作背后的考量”的一个回复

发表评论

您的电子邮箱地址不会被公开。