企业的数字进化三部曲——连载【4】(原创作者:Ray和他的数字化三部曲团队)

      「上接:企业的数字进化三部曲_连载【3】」

        所以投资人理所当然地要问——为什么是你?

      我们先来简单看一下行业的发展状况,PC时代,我们有很多数据库,比如Oracle(甲骨文)、Teradata、Hadoop、Greenplum等,Greenplum实际上是我在Pivotal时主导的MPP数据库(大规模并行处理数据库)。我们看看这些技术,在PC时代,它们可以用来存储和管理数据,但基于PC的基础架构,这种非云原生的技术基因导致一些先天性的短板,比如硬件资源利用不充分、扩容麻烦、容易形成数据孤岛、难以消除数据多副本等等,对于前面提到的用海量数据去训练提升机器学习模型精度这类人工智能的应用场景,更是难以满足了。

      到了云时代,我们来看看美国两家云数据库公司,一家是亚马逊,提供名为redshift的云数据仓库服务。另一家新公司叫snowflake,在亚马逊AWS、 微软Azure 和 Google Cloud提供多云数据平台服务。Snowflake利用云计算平台几乎无限扩展的资源,将数据库的应用场景和水平提升到一个全新的高度,我认为在中国,我们暂时还没有这样的公司。

      事实上,中国的云计算发展得不错,像阿里云、腾讯云等等,这些公有云可以布署我们OpenPie正在研发的云原生数据库PieCloudDB来构建像snowflake这样的云数据服务,然后提供给用户使用,当然,我们也可以自己在各个公有云平台构建多云数据服务。目前在中国,这个领域没有主导者,我们做了一些事,然后投资人会说,你讲的对,这项技术是一个机会,但为什么是你?

      这时候,你需要做的,是向投资人证明你有资格

      所以我告诉投资人,我是Pivotal关键产品的主导者,我和Pivotal的创始人Paul Maritz、Scott Yara共事过。如果你在维基百科上搜索的话,你会发现,Paul Maritz主导了所有的Windows操作系统产品的开发,当时,他被认为是微软排名第三的人物,排在比尔·盖茨和鲍尔默之后。而我是在Pivotal主导Greenplum数据库产品开发,他们招募我来创建Pivotal中国研发中心,随后我在中国创建了一个Greenplum社区,我在北京和上海两地组建办公室,我招募了一批优秀的技术及管理人才,到今天,这些人在中国创办了五家高科技创业公司。说到这,如果你听起来有似曾相识的感觉——贝宝(Paypal),是的,我通常会告诉我的朋友,来自贝宝的派系培养了一大批创业者,比如Elon Musk创办了 特斯拉(Tesla),Peter Thiel创办了Palantir,有一个人创办了Youtube,还有一个人创办了LinkedIn。与之类似,我们是活跃于数据技术领域的一群人,不仅在中国,还在全世界范围内。实际上,Greenplum  主要是由这群人构建的。

      因此,我告诉投资人,我们有一群人,长期活跃于数据技术领域的一群高手。不仅如此,我们往往能够把一群人凝聚起来。更重要的是,如果不做点什么,如果这些人散了,那么这么一群技术力量就真的散了。但如果能够把人才凝聚起来,做点什么,队伍就会越来越壮大,即便中间有更多的人可能自立门户,但如此开枝散叶数据技术的生态只会越来越成熟。目前来看,似乎我们有这种孵化企业家的文化,大家乐意传递由技术带来的兴奋感。

      所以,我就对投资人说,既然我们赞同这一点,我们就开干吧。

      常言道,行胜于言,那我们到底是怎么做到的?

      那么第一个事情,从第一天开始,新公司的估值到底是多少?对比Snowflake的创建,我查阅了相关资料,读了美国著名风险投资家的观点,他们的估值是6500万美元。我们的估值是1亿美元。那么为什么会这样呢?

      我告诉投资人,如果没有现金,我们就无法创建有意义的东西。通过我在Pivotal 的经历,每年充足的研发投入对于产品的成功至关重要。所以我告诉投资人,你需要给我们维持三年研发及运营的现金,我们在第一年内人员招聘不会超过100人,我推测三年潜心研发产品需要的投入。我不想让投资人投更多而占比更多股份,比如80%,像当年的Pivotal那样。有一天投资人可能会出售这家公司,可能会收购这家公司,对此我们将无能为力,所以最终投资人控股20%,给了我们一个准独角兽的估值。

      实际上在这个行业,在中国,我们从一天开始就有这样的融资及估值,真的非常棒,我们还什么都没有做,我们甚至还没有注册公司。

      九个月内,我们还有一笔融资,其中一家投资人是上市的证券经纪公司,这类公司也经常被称为私募股权投资公司,基本上它们是不会对成立不到一年的公司进行投资的,它们通常会投公司的Pre-IPO(上市前股权投资)。那么,为什么会投资我们呢?

      主要是因为我向它们推销了公司的商业计划,如前所述,我和投资人分享了非常稳固的底层逻辑

      中国的IPO的环境非常好,我注意到,想在北京证券交易所上市的公司,当公司估值超过15亿元,最近两年研发投入合计不低于5000万元,可以看到,政府非常鼓励公司把资金投入到研发中。所以我认为,有了这第二笔投资,公司可以在北京证券交易所上市,从投资技术上来说,这是一笔不错的Pre-IPO类型的投资。

      所以我告诉投资人,我们不仅仅是一家孵化期的初创公司,我们将收购公司,比如类似于SPAC的方式,如果你来自于金融行业,应该了解SPAC确实是一个能帮助公司快速在交易所上市的工具。

      所以,下一步是,我向他们保证,一年后,我会收购一家数据库相关领域技术优秀且有一定行业用户数量的公司。由此,我们会在一年内建立产品,然后在购入公司的基础上,我们马上就拥有了客户群。我认为再过一年,我们的产品将扩展到更多行业、更大规模的客户群,显然这完全不同于购入公司的客户群,但我们缩短了时间,不一定是缩短了新产品推向市场的时间,我认为我们加快了新公司IPO的准备过程。而且一年的时间,新公司和收购的公司,也完成了技术资源的共享和融合。

      正如我所说的,一家成立九个月的公司,就已经为北京证券交易所上市做好了准备。但北京证券交易所的规模并不是非常大,在上海有一个称之为科创板的股票市场,可能更适合我们。在科创板上市,如果不考虑营收要求,基本上要求达到40亿元的估值;或者,估值不低于15亿元人民币,最近一年营业收入不低于2亿元人民币,研发近三年累计投资不低于近三年累计营业收入的15%,我觉得随着我们产品研发、销售的推进,我们非常接近这些要求,我们的新公司非常接近在上海科创板IPO的条件。

      我可以展开一下,看看我们是如何快速完成创业公司创新,快速接近IPO条件的。

      大部分的创业创新公司,从成立第一天起就面临挑战和困难,对于中国大多数的投资人,如果你的估值达到了1000万美元(大部分创业公司的首次融资估值会更低),他们会给你50万美元的启动资金,然后你的估值慢慢增长到了1亿美元,期间你需要接受两到三轮融资。但如果你只有一轮融资,你的银行账户里只有50万或100来万美元,你没法聘请任何高水平的人,你肯定找不到一个EMBA毕业的经验丰富的总经理,你肯定无法聘用顶尖大学毕业的博士生,这样公司很容易倒闭。事实上,大多数公司在前三年就倒闭的原因,主要是因为他们缺乏足够的资金让公司健康成长。

      所以我非常感激我们新公司的投资人,给了我们一个非常棒的估值,他们同意我们应该跳过公司成长的婴儿期,直接进入自主阶段,也许甚至可以跳过儿童期,所以我们跳过了婴儿期。这就是我的做法,我会分享商业计划的一些内容,这样,或许大家更容易理解我们是如何建立一个稳固的企业的,以及投资人为何会看好我们。

      我们观察了PC时代的数据技术,如上图所示,甲骨文(ORACLE)是事务型数据库,Greenplum则是分析型数据库,我们创建了Greenplum,我领导整个团队开发了Greenplum数据库,Teradata是另一家分析型数据库公司。这些数据库基于关系模型,遵守规范的SQL标准,当前大量的应用程序背后(无论是在本地机房的或云端运行的程序)对接的基本上就是这些SQL数据库,当然,知名度非常高的PostgreSQL和MySQL也属于这类范畴,这两个是事务型数据库。

      而另外一项是与前述数据库完全不同的数据处理技术,叫Hadoop,是由HDFS分布式文件系统和Map/Reduce(映射/归约)并行处理技术构成的大规模数据分析处理系统。实际上,有一阵子Hadoop非常热门,几乎是大数据的代名词,不少当时估值很高的初创公司是围绕Hadoop建立的,但当前来看,这些公司状况堪忧,难以为继,Hadoop生态尽显没落的颓势,这背后当然有非常复杂的原因,但云计算的兴起是一个非常重要的搅局因素。当然,Hadoop数据技术有独到的地方,可以布署在廉价的硬件设备上并实现高可用,通过定义数据分块来分布式存储和处理超大文件及海量数据,不同于普通磁盘的分块存储技术,Hadoop非常有效地最小化磁盘寻址开销,这些方面有它自己的优势。

      但总体来看,这些都是PC时代建立的技术,从第一天开始,它们的假设是,软件将安装在PC上。但如果将它们安装在云上,情况就非常不一样了,想法非常不一样,运行方式非常不一样,架构不一样,业务不一样,一切都不一样了。所以,PC和云计算两者之间的差异极其巨大,且由此引发的技术及商业进化极为深刻。

      让我们来看看数据库原生地运行在云端的优势。在PC时代,对于大规模的数据处理,大家倾向于使用集群。假设你根据业务需求估算了一下,然后采购四个服务器组成一个集群来存储处理数据。一年之后,你意识到这四个服务器是不够的,你打算购买新的服务器,理论上,你可以在集群中添加第五个服务器,但实际上我们总是会设置另一个集群,为什么会设置另一个集群?

      主要是因为服务器配置不同,因为一年后,服务器变得更先进,存储容量更大,运行速度更快,硬件已经和上一年不一样了。所以,如果你想将新服务器添加到旧的服务器集群中,新旧服务器的性能不一样,新服务器运行速度也会变慢,这会影响整个集群的性能。这被称为集群的木桶短板效应。因此,像银行这样的用户,很可能会随着数据存储量的不断增长,通过添加新服务器而不停地设置新的集群,最终银行可能有超过10个集群,因为新旧服务器的差异而各自独立,一个集群无法直接访问其他集群中的数据。

      现在,我们告诉他们,你需要成为一家数据公司,你需要真正存储数据并盘活数据,你需要分析挖掘全部的数据来产生商业洞察,而不是形成数据孤岛。

      所以,如果银行的销售系统处在一个集群中,而当前的计算系统使用的是另一个集群,那么你如何在一个集群中访问其他集群的数据?如果你不能,你如何才能从大数据模型中受益?显然,你无法从这些因集群隔离而导致的数据孤岛中更好地受益。但在云计算中,从第一天开始,我们都将数据上传到同一个存储空间——比如S3存储,在云端,对于用户来说,扩展数据是非常透明且简单易行的,这就像你上传照片到iCloud一样。当iPhone将照片上传到iCloud,你真的不在乎iPhone是怎么管理存储空间的,因为你想要的是一键操作式的便捷,数据管理及存储空间扩展全由云端存储自动完成。

      现在,数据传到云端S3存储上来,那么,你可以访问集中的数据了。我们来看一个航空公司的例子,例如,它们的一个会员系统,它们可以启动一个完整的服务来读取数据,做一个智能处理,然后在票务系统中,也可以建立另一个服务集群来计算机票价格,也许检票系统也另外可以启动集群。

      如此,你可以根据数据计算需求,动态地启动多个集群。因此,与以前基于PC的数据集群不同,我们前面的讨论中提到,基于PC的集群,容易形成数据孤岛,每个集群都自己跑一个应用程序,而且服务器上的计算资源和存储数据被深度绑定,即便某些计算只需很少的cpu资源,多余的服务器也得在机房运行着,而一旦cpu或硬盘资源不够用,就得整台整台服务器全套往里添加,新旧服务器的型号、配置如果买不到一致的,就会容易创建新的独立集群而导致数据孤岛,即便买到了和旧的服务器一致的配置,然后开始集群扩容,新购的设备加入集群后,还得做数据重分布,整个扩容期间会遇到各种各样难以解决好的问题,所以大部分DBA(数据库管理员)并不乐意去扩容。但在云端,我们集中所有数据,我们可以同时创建多个集群,你可以自由地添加数据。你可以读取数据做建模分析,从而挖掘大数据的潜力,同时你不需要关注这些计算集群和S3存储的维护、扩容等PC时代令人头疼的问题。这些是云计算给我们带来的益处,我们可以看一个更考验计算和数据处理负载极限的问题,比如说,双十一或618购物节(类似的还有美国的黑色星期五购物节),我想要对用户做千人千面的个性化推荐,可能要启动400台左右的服务器,以更快的速度计算并将结果推荐给用户,而对于当日十几亿的包裹订单要快速处理并分派至全国各地的仓库安排出货,这同样要求短时间快速启动数百上千的服务器来计算处理,而云计算接近无限扩展的计算和存储资源使这一切得以实现,这是PC计算平台无法完成、也是无法想象的。更妙的是,上述计算峰值过后,云平台会释放多余的服务器,匹配日常业务在较低的负载水平,节省电力、服务器使用寿命消耗等各种成本,这自然也是PC计算平台望尘莫及的。

      所以我们知道,我之前向大家展示的那些技术已经过时了,我们再简单回顾一下,我打赌大家会坚持这些技术已经过时了。有些时候,可能还是很难相信这些技术已经过时了,比如,甲骨文的Exadata,这是事务型数据库,也带一些分析型数据库的功能,因为我在Oracle工作过,十多年前我参与了Oracle的Exadata Machine 项目。它拥有PC时代的通病——数据是分离的,没有聚合。因此,你需要知道如何扩展,如何升级,还得管理多个集群。

      用PC时代的技术处理云时代的海量数据,确实一切变得如此的捉襟见肘。而在基于云计算的数据平台上,你真的不用操心这些,你只需关注自身的业务数据分析,其它的都由平台自动完成,而且你分析数据用到的环境和工具也由平台为你准备好了。通过云原生的数据计算,发现有趣的见解,让你的模型更准确,让你的股票估值比竞争对手更准确,让你的贷款评估比你的竞争对手更好、更准确。让你的发动机比你的竞争对手更安全,让你的汽车在路上的故障率低于竞争对手。置身云时代,我们真的无法逃避这种基础性技术创新,如果忽视这些创新,你的业务可能越来越举步维艰,甚至最终被其他人颠覆。

      但大家也明白,术业有专攻,不少公司高层来找我说,是的,我们也理解颠覆性创新技术能带来的好处,但我们只精通自己的行业,无法花费巨大的资源和精力去为新技术做好准备,这种情况下,我们如何从创新技术中受益?这个问题的答案,大概就是我们目前正在构建的云原生数据平台,可以多云布署,运行在像阿里云、腾讯云、亚马逊aws等主流公有云或其他的企业私有云上,我们的投资人也极其关注这个数据平台,并给了我们很棒的估值。你只需将数据上传到这个云数据平台,就可以使用许多工具来分析数据产生商业见解,而且你不需要维护集群,不用管存储或集群扩容这些烦心事,只需专注在自己擅长的主业上。这里,我们不展开创新技术实现的细节,相对于PC时代的数据处理,技术上需要大量的重构,但我们和投资人讲,只需一年,我们就可以完成这些技术实现。

      为什么我们可以在一年内快速构建一个新的平台?

      因为我们从PostgreSQL、Greenplum等开源数据库继承了很多东西,但我们完全重构了代码,成立第一天,我们获得了头部产业基金很棒的估值和投资, 这家新公司真的太令人兴奋了,我们看到,很多有先见之明的人都想加入这类颠覆性技术创新的探险之旅,有一些非常著名的行业技术领袖加入了公司,我们迅速创建了产品。我们正在收购一家拥有用户基础的公司,我们将两者整合在一起。我们已经迅速获得了另一轮融资,我们有可靠的现金流,我们可以更多更深入地专注技术创新和产品研发,而不必像那些资金不够的项目那样过于担心朝不保夕的日子,我们知道,类似不稳定的运营状况是难以做出好产品的。

      总的来说,这种创新是非常令人兴奋的,有了这种技术,我可以给你一个使用场景:一辆在路上不会抛锚的汽车。

      我们来看这个简单的示意图,左侧展示的是车辆数据收集模块,可以看到很多传感器汇集车辆的工况数据,还有一部分数据来自车辆的维修记录及相关文档,比如你把车辆送去的保养日期、维护项目等等。

      上述所有的数据都会传输并存储到云数据库,然后我们可以利用模型来计算分析并做些有价值的预测,这就是上图右侧部分展示的相关内容。所以当汽车启动时,它只是将传感器数据发送到数据流,即传输数据到云端的管道。然后,我们在云数据库平台的缓存中有一些热点数据,用来做快速分析,如果分析结果表明,你在路上行驶汽车抛锚的可能性很高,你就能根据系统提示进行迅速处理。当然,缓存中的数据来自几乎可以无限扩展的云端存储。那么,系统读取缓存中的数据,所需要的热点数据,然后利用模型进行计算,给出一个评分。假设评分是90分,太高了,达到告警的阈值,这时也许你应该把汽车送去保养或检修,而不是冒着风险继续行驶。说到这里,我们可能想知道,如果系统就这样运行良好,为什么我们仍然将新数据不断地上传到云数据平台?

      如前所述,事实上,你有更多的数据,模型的精度会更好,模型计算给出的结果也更好,所以我们的汽车需要持续不断地向云数据平台传输新的数据。

      更多的数据,带来更高的模型精度,做更好的计算预测,所以汽车端将继续提供更多的数据,这种迭代非常强大,在控制理论中,我们称之为正反馈回路。 所以它会一直迭代下去,有一天这可能会非常非常可怕,因为正反馈回路往往最终达到了极限,可能会带来一些我们目前无法预料的后果。

      这很重要,值得我们审慎对待。

      但是,这种创新技术可能给商业上带来的颠覆性,真的超级、超级令人兴奋。

      想想未来,没有一辆汽车在路上抛锚。就是这样,这是一个美好的愿景。

      现在,我们暂时放一下这些场景和细节,再次回到数据技术公司的商业计划的话题,云时代的数据技术,发生了哪些根本性的变化?其底层逻辑是什么?这条创新技术的新赛道上的赌注是什么?为什么对云玩家来说,想在未来赢得云计算领域的竞争,投资于这样的技术公司至关重要?我们前面的讨论回答了这些问题,我们也聊到了,为什么我们要学习Pivotal的经验?为什么没有让投资人成为大多数股东?所以,我们学习了很多,然后我们建立了一个云数据平台,创建了这家科技公司——拓数派(OpenPie)。我们可以尝试在这样的数据平台启动汽车领域的业务,云技术非常有趣,也极其强大,你可以在云端创建新的应用程序,可以方便且低成本存储数据,按需动态启动计算集群来访问并分析数据,然后基于数据平台的计算能力构建模型,得出有益的预测或商业洞察,然后继续创建应用接入这些预测或洞察来自动优化现有的业务,即使你暂时不需要创建应用程序,也许未来可以构建,而数据先安全地存储在云平台上。

      注意,这不是一种应用程序驱动的思维,而是一种基础设施驱动的思维。所以我倾向于向大家介绍很多关于临界点的数据及其背后技术创新的变化趋势。如果你仍然没有数字思维的习惯,总有一天会培养起数字原生思维。也许,关注数字化,你不该仅仅关注数据,也要关注数据基础设施的根本性改变。至此,我们探讨了许多非常深入的话题,我们的对话远高于行业平均水平。

      这些,就是我们现在正在做的事情,我们着力数据基础设施的突破创新,我们快速融资,行业高端技术人才快速地加入我们的团队,产品快速地开发迭代,这就叫做快速创新。我们的工作非常有挑战性,我们的技术处于行业的前沿地带,我们不断地探索全新的数据技术领域,团队很兴奋,每个人都很兴奋,当你第二天来到办公室时,一切都改变了,代码更新更健壮,产品运行速度也更快了。我们处在快速创新的年代,中国的创新速度非常快,数字化推进非常快,所以我们不能不具备数字化背后的数字原生思维。

      到这里,我们聊了不少数据公司的话题,那么接下来,我们将讨论数学公司的相关内容,思考数字宇宙的边缘,思考我们知识的边界,思考如何数字向善来良性探索人工智能的边界。

      那么,让我们在下一篇连载中,对数字化三部曲的第三个阶段——数学(AI模型)公司做一个有趣的探讨吧。

      —未完待续—

( 冯雷(Ray)及数字化三部曲团队原创连载作品,欢迎继续关注。)

—————————————

Ray和他的数字化三部曲团队

冯雷 Ray Feng:

数字化三部曲系列著作主编及首席作者

PieCloudDB Database eMPP存算分离云原生数据库总设计师

1024数字产业基金会理事长

卡内基梅隆大学上海校友会主席

拓数派创始人兼首席执行官

数字化三部曲团队:

致力于企业——软件公司  数据公司 → 数学(AI模型)公司的数字化三部曲方法及软件代码级别架构实践真实落地

“企业的数字进化三部曲——连载【4】(原创作者:Ray和他的数字化三部曲团队)”的一个回复

发表评论

您的电子邮箱地址不会被公开。