2019年大数据与AI领域主要发展趋势

谌普江

晨山资本投资经理

技术的进步推动着经济和生活的全面数字化，对数据的重视提到了前所未有的高度，“数据是资产”已经被广泛认可。正如《大数据时代》作者舍恩伯格所说，“虽然数据还没有被列入企业的资产负债表，但这只是一个时间问题”。

在过去几年，我们已经开始通过数据科学、机器学习和人工智能让部分应用场景的数据产生价值。这些技术也逐步从最初的早期采用者（BAT和初创公司）扩展到更广泛的经济。如何存储数据、管理数据并深挖数据的价值已经变成了几乎所有的企业都需要思考的问题。我们正处在通往数据驱动的智能世界（智能交通工具、智能企业、智能产品）的快车道上。在终局到来之前，技术发展都在颠覆与被颠覆，这是初创企业的用武之地。我们持续关注数据智能链条上的初创企业，也在持续关注数据与AI发展当前处在什么阶段，未来会有什么变化。

以下是Matt Turck（美国早期基金FirstMark合伙人）总结的2019年大数据及AI领域的主要发展趋势。他从基础设施、分析以及应用层面分别阐述了主要发展趋势，希望能给大家带来思考。

基础设施层面的趋势

❶ 第三波浪潮？从Hadoop到云服务再到Kubernetes

❷ 数据治理、数据编目、数据沿袭：数据管理的重要性与日俱增

❸ 专用于AI的基础设施的崛起

数据基础设施一直保持快速进化状态。这个速度保持了很多年，近期有加速进化的趋势，主要经历三个阶段：从Hadoop到云服务再到Kubernetes环境。

诞生于2003年10月的Hadoop可以算得上大数据领域的“鼻祖”。Hadoop是一个使用计算机网络对大量数据进行分布式存储和处理框架，在数据生态系统的爆炸式发展中发挥了绝对核心的作用。

然而，在过去的几年里，宣布Hadoop死亡已经成为行业观察家们的常态。随着Hadoop供应商遇到各种各样的麻烦，这一趋势今年进一步加速。在撰写本文时，MapR已经处于关闭的边缘，也有可能已经找到了买家。最近刚刚完成52亿美元合并的Cloudera和Hortonworks在6月份经历了艰难的一天，由于令人失望的季度收益，股价暴跌了40%。Cloudera已经发布了多款云计算和混合产品，但目前还没有正式对外售卖。

由于来自云平台的竞争，Hadoop正面临越来越大的阻力。Hadoop是在云没那么完备的时候开发的，大多数数据是在本地的，那时网络延迟是瓶颈，将数据和计算放在一起很有意义。但这一切已经改变了。

然而，Hadoop不太可能很快消失。它的发展可能会放缓，但它在企业间的部署规模之大，将使其在未来几年保持惯性和生命力。

无论如何，向云的转变显然正在加速。有趣的是，在我们与《财富》1000强企业高管的交谈中，2019年似乎是一个真正的转变。在过去的几年里，讨论云的很多，但真正的行动都是本地部署，尤其是在受监管的行业。现在《财富》杂志1000强企业的许多高管都在积极转向云计算，其中有一部分活动涉及从传统的微软商店转向Azure。

因此，尽管云提供商的规模已经非常庞大，但它们仍在继续快速增长。2018年，AWS实现收入257亿美元，比2017年175亿美元增长46.9%。微软Azure的收入没有单独披露，但在截至2019年3月的季度中同比增长了73%。虽然这不是一个完美的对比，但是AWS的收入在同季度同比增长了41%。

随着云计算应用的深入，客户开始对成本望而却步。在世界各地的董事会会议室里，高管们突然注意到一个曾经很小的账目：他们的云账单。云计算确实提供了敏捷性，但它通常会带来很高的成本，尤其是当客户的注意力离开计价器或者无法准确预测他们的计算需求时。像Adobe和Capital One等AWS客户，他们的云账单在2017年至2018年的短短一年里增长了60%以上，达到了2亿美元以上。

成本，以及对供应商锁定的担忧，加速了向混合方法的发展，包括公共云、私有云和本地部署的组合。面对众多的选择，企业将越来越多地选择最适合自己的工具来优化绩效和经济效益。随着云提供商更加积极地实现差异化，企业开始采用多云策略，利用每个云提供商最擅长的领域。在某些情况下，为了优化经济效益，最好的方法是将一些工作负载保留（甚至是调回）在本地，特别是对于非动态工作负载。

有趣的是，云提供商正在适应企业计算能力向混合环境发展的现实,像AWS会提供类似于AWS前哨的工具，允许客户进行本地计算和存储的同时，还能将本地负载与AWS云上其他程序无缝集成。

在这个新的多云和混合云时代，Kubernetes无疑是冉冉升起的巨星。Kubernetes是谷歌于2014年推出的一个用于管理容器化工作负载和服务的开源项目，它正经历着与Hadoop几年前同样的热情，有8000名与会者参加了KubeCon活动，还有源源不断的博客文章和播客。许多分析师认为，RedHat在Kubernetes世界的重要地位，在很大程度上促成了IBM以340亿美元的大规模收购。Kubernetes的前景是帮助企业实现跨环境运行工作负载，企业的混合环境会包括数据中心、私有云以及一个或多个公共云。

Kubernetes作为一个特别适合管理复杂、混合环境的编制框架，也越来越成为机器学习的有吸引力的选项。Kubernetes使用相同的基础设施服务于多个用户，使得数据科学家不必成为基础设施专家，就能够灵活地选择他们喜欢的任何语言、机器学习库或框架，并训练和扩展模型，允许相对快速的迭代和强大的重现性。Kubeflow是为Kubernetes开发的机器学习工具包，它的发展势头迅猛。

Kubernetes相对来说还处于起步阶段，但有趣的是，因为数据科学家可能更喜欢Kubernetes的整体灵活性和可控性，上述情况可能标志着一种远离云机器学习服务的进化。我们可能正在进入数据科学和机器学习基础设施的第三个范式转变，从Hadoop（直到2017年？）到数据云服务（2017-2019），再到一个由Kubernetes和下一代数据仓库（比如Snowflake）主导的世界（2019-？）。

这种演变的另一面是复杂性的增加。当然，这里会有一个综合平台的机会。平台会抽象并简化对大量云底层基础设施的操控，让更广泛的数据科学家和分析师群体更容易访问这个美丽的新世界。

尽管角度不同，Serverless模式就是这种简化的一种尝试。这种执行模型允许用户编写和部署代码，而无需担心底层基础设施。云提供商处理所有后端服务，客户根据实际使用情况的付费。在过去的几年里，Serverless模式无疑是一个重要的新兴主题，这也是我们在今年的Data&AI领域中增加的新品类。然而，将Serverless模式应用于机器学习和数据科学仍有较多工作要做，像Algorithmia和Iguazio/Nuclio这样的公司是早期进入者。

数据环境日益混合的另一个后果是，企业需要加大努力来获得对数据的控制。

目前的数据环境非常复杂，有些位于数据仓库、有些位于数据湖、有些位于各种其他数据源，跨越本地部署、私有云和公共云，那应该如何查找、管理、控制和跟踪数据？这包含各种相关的形式和名称，包括数据查询、数据治理、数据编目和数据沿袭，所有这些都越来越重要和突出。

在混合环境中查询数据本身就是一个挑战，其解决方案要符合存储和计算分离的总体趋势。
数据治理是另一个迅速成为企业首要考虑的领域。数据治理的一般思想是管理数据，并确保整个数据生命周期（涉及数据有效性、完整性、可用性、一致性和安全性）的高质量性。值得注意的是，在2019年初，Collibra进行了一轮1亿美元的融资，估值超过10亿美元。
数据编目是数据管理的另一种日益重要的手段。有效的数据编目是综合企业各种数据资产的字典。它们帮助用户（包括数据科学家、数据分析师、开发人员和业务用户）能够自助发现和使用数据。

最后，数据沿袭可能是最新出现的数据管理类别。数据沿袭的目的是捕获跨企业的“数据之旅”。它帮助公司弄清楚数据在其生命周期中是如何被收集、如何被修改以及如何被分享的。许多因素推动了这一领域的增长，包括合规、隐私和伦理的重要性日益增加，也包括对机器学习管道和模型的可重复性和透明度的需求。

今年一直在加速发展的最后一个关键趋势，是AI专用基础设施的不断涌现。

管理人工智能管道和模型的需求导致了MLOps（或AIOps）领域的快速增长。为了呼应这种新趋势，今年的Landscape里面，我们添加了两个新的框，一个名为基础设施（各种早期创业公司包括Algorithmia、Spell、 Weights&Biases等等），一个名为开放源码（各种各样的项目，通常相当早，包括Pachyderm、Seldon、Snorkel、MLeap等等）。

ML工程师需要能够运行实验并快速迭代，在需要时访问如GPU等资源。在我们的Data Driven NYC活动中，我们介绍了一些早期初创公司，它们提供了诸如Spell、Comet、Paperspace等基础设施。

随着GPU数据库的崛起和新一代人工智能芯片（Graphcore、Cerebras等）的诞生，人工智能对基础设施产生了深远的影响。人工智能正迫使我们重新思考计算的本质。

分析层面发展趋势

❶ 商业智能(BI)正在整合

❷ 企业AI平台是一个趋势

❸ 横向人工智能仍然非常活跃

在商业智能领域, 正如前面提到的，过去几个月的明显趋势是大量整合,包括Tableau、Looker、Zoomdata和Clearstory的收购，以及SiSense和Periscope的合并。因为数据可视化和自助分析服务有大量的供应商，BI中的整合在某种程度上是不可避免的。每个供应商，无论大小，都面临着多样化和扩展能力的压力。对于云收购商来说，这些新产品线肯定会增加收入，但更重要的是，它们拥有附加功能，能够帮助云收购商的核心平台产生更多收入。

BI未来会有更多的整合吗?微软在Power BI方面拥有强大的地位，但当整个细分市场整合并且每家公司都有效参与时，并购市场可能会有自己的动态。AWS就可能需要更强的产品，考虑到它的QuickSight BI通常被认为有点落后。

随着BI的整合，数据科学和机器学习平台领域的热度持续上升。在企业中部署ML/AI是一种巨大的趋势，这个趋势目前还处于早期阶段，各种参与者都在争先恐后地构建平台。

对于该领域的大多数公司来说，明确的目标是促进ML/AI的民主化，也就是让更大的用户群体和更多的公司获利于ML/AI。目前人才短缺仍然是ML/AI广泛采用的主要瓶颈。然而，不同的玩家有不同的策略。

一种方法是AutoML。它涉及到自动化机器学习的整个生命周期，包括一些最乏味的部分。根据产品的不同，AutoML将处理包括特征生成和工程，算法选择，模型训练、部署和监视等各种任务。DataRobot是AutoML专家，自2018年以来，该公司已筹集了1亿美元的D轮融资（据称自那以后还筹集了更多）。

该领域的其他公司，如Dataiku、H20和RapidMiner，提供具有AutoML功能的平台，但也提供更广泛的功能。以Dataiku为例, 自2018年以来，成功融了C轮1.01亿美元。它的整体思路是赋能整个数据团队（包括数据科学家和数据分析师），使得整个生命周期的数据处理简单而有趣。

云提供商当然很活跃，包括微软的Learning Studio、谷歌的cloud AutoML和AWS Sagemaker。尽管云提供商很强大，但这些产品的定位比较窄——通常很难使用，而且主要针对技术含量很高的高级用户。它们还处于萌芽阶段。据报道，亚马逊的云机器学习平台Sagemaker在2018年开局缓慢，仅向商业领域销售了1100万美元。一些云提供商正积极与该领域的专业第三方合作：微软参与了Databricks的2.5亿美元的E轮投资，这或许是未来收购的前奏。

除了企业人工智能平台，横向人工智能领域（包括计算机视觉、NLP、语音等）继续令人难以置信地充满活力。主要趋势如下：

NLP领域的重大改进，特别是通过转移学习的应用（其中包括基于大量的数据训练模型，将其这模型通过移植和微调的方式用于解决某个特定的问题），让它使用较少的数据就能工作：例如ELMO，ULMFit，最重要的还有谷歌的BERT。
业界为了用更少的数据实现人工智能做出了更多努力，包括单样本学习(one-shot learning)。
深度学习与强化学习相结合。
生成式对抗网络(GAN)的持续进展。

应用层面发展趋势

❶ 企业部署ML/AI的阶段已来

❷ 企业自动化和RPA的兴起

在这个阶段，我们可能需要3到4年的时间来尝试为企业构建ML/AI应用。

当然已经有过一些远远早于现实的尴尬产品尝试（第一代聊天机器人）和一些重大的营销声明，特别是一些公司试图改造现有产品实现ML/AI。

但是，我们已经逐步进入了ML/AI在企业中的部署阶段，从好奇和实验到实际的生产使用。未来几年的趋势似乎很明显：以一个给定的问题为例，看看ML/AI（通常是深度学习，或其变体）是否会产生影响，如果是的话，构建一个AI应用程序来更有效地解决问题。

此部署阶段将以多种方式进行。一些产品将由内部团队使用上面提到的企业AI平台来构建和部署。其他的将是由不同的供应商提供内嵌人工智能能力的全栈产品，其中的人工智能部分可能在很大程度上对客户是不可见的。还有一些将由提供混合产品和服务的供应商提供。

当然，现在还为时尚早。内部团队通常从处理一个用例（例如客户流失预测）开始，并开始扩展到其他问题。许多构建ML/AI应用的初创企业仍在学习克服从研发到完全规模化运营的挑战。

然而，成熟正在到来。在过去的几年里，对于任何希望在实际应用中部署ML/AI的人来说，都需要大量的学习，关于技术可以做什么和不能做什么，我们开始更好地理解机器和人之间任务的正确分配。人们从第一代人工智能应用获得不少经验教训。例如，从用户角度出发，下一代客户服务聊天机器人在ML/AI与可配置性和透明性之间提供了更智能的组合。

展望未来，随着ML/AI在高性能数据栈的支持下逐渐普及，我们是否看到了完全自动化企业的曙光?

自从信息技术出现以来，企业就被信息孤岛所困扰，各种系统和数据分散到各个部门，彼此之间无法沟通（这导致了大规模的系统集成服务行业），而人类充当了两者之间的“粘合剂”。当前数据和系统日益集成、ML/AI有能力逐步将人类从某些功能中移除，企业完全有可能以一种日益自动化、系统化的方式运作。

例如，假设一个自动化企业，需求的增加（ML预测出来的）自动触发供应商订单的增加，这将自动记录在财务系统中（财务系统可以自动计算和支付补偿津贴等）；或者预期的需求下降会自动触发相应的营销支出的增加等等。

在未来的世界里，企业不仅会成为完全自动化的组织，最终还会成为自我修复和自治的组织。

然而，我们离那个阶段还很远，今天的现实主要集中在RPA上。这是一个非常热门的领域，像UI Path和Automation Anywhere这样的领先者增长得非常快，并且筹集了大量资金。

RPA是机器人过程自动化的简称（尽管可能令人失望的是，它没有利用任何实际的机器人），涉及到通常非常简单的工作流，通常是手工的（由人类执行）和重复的，并由软件替代它们。许多RPA发生在后台办公室功能中（例如，发票处理）。

RPA是由企业数字转型的浪潮推动的，尤其是在过去几年里，数字转型一直在加速。一些RPA的领先企业已经存在多年了（UiPath成立于2005年），但是当数字转换成为日常话题时，“突然”受到了欢迎。RPA还提供了一个强大的ROI，因为它的实现可以直接与人类执行相同任务的成本进行比较。RPA对技术服务巨头也非常有吸引力，因为它涉及大量的实现服务（需要实现无数不同的工作流配置）；因此，RPA初创公司从与这些大型服务公司的强大合作关系中获益。

也许有理由怀疑RPA。一些人认为这在很大程度上是不明智的“创可贴”，或者是某种权宜之计——采用由人类执行的低效工作流，让机器来完成。从这个角度来看，RPA可能只是在创建下一层技术债。随着周围环境的变化，除了导致需要更多的RPA将旧任务重新配置到新环境之外，自动化的RPA功能会发生什么变化还不清楚。至少在这个阶段，RPA更多的是关于自动化而不是智能，更多的是基于规则的解决方案而不是人工智能（尽管一些RPA供应商在营销材料中加强了他们的人工智能能力）。

RPA应该与智能自动化区分开来，智能自动化是以ML/AI为核心的新兴领域。智能自动化也以企业流程和工作流为目标，但是它更以数据为中心，而不是以流程为中心，并且最终能够学习、改进和治愈。

智能自动化的一个例子是智能文档处理(ADP)，这是一个可以利用ML/AI来理解文档（表单、发票、合同等）的类别，其水平与人类相当或更好。

在未来几年观察这些领域将特别有趣，RPA和智能自动化有可能通过并购或推出新的本土产品进行合并，除非后者的进展如此之快，限制了对前者的需求。

谌普江

基础设施层面的趋势

分析层面发展趋势

应用层面发展趋势

赞过：

相关