跳转到主要内容
Chinese, Simplified

Image for post

在Work Bench,我们每季度举办一次同行圆桌会议,将企业高管联系在一起,解决公司面临的一些最大的技术难题。几周前,在我们的机器智能圆桌会议上,很明显,ML和AI是今年最重要的举措,大多数与会者都在积极构建支持性基础设施。优先考虑的事项包括浏览构建与购买场景、雇佣数据科学人才、避免供应商锁定和云战略。到目前为止,在ML和AI上的投资通常有助于BI报告,但我们网络中的一些人正在探索基础设施,利用他们收集的数据为客户提供价值飞轮。我们在UpLevel Security、Merlon Intelligence、Socure支持的团队正在破坏整个行业,因为他们已经建立了这个基础设施,以及围绕高价值数据的护城河。在圆桌会议之后,我一直专注于探索企业如何利用已有的数据来创建改善业务的智能系统。

简史

在过去的十年里,人工智能基础设施领域发生了很多变化。自2006年Hadoop推出以来,云计算、容器、gpu和数据科学的进步彻底改变了从数据中获取见解的方式。新技术和新兴技术表明,创新正在发生,特别是在解决数据访问管理、流水线、模型开发和推理等工程问题的领域。不管你如何划分,人工智能基础设施市场是巨大的:IDC预测,人工智能和ML的支出将从2017年的120亿美元增长到2021年的576亿美元。

使用Crunchbase,我查看了过去3年中所做的500多笔投资,包括那些展现了我在潜在投资组合公司中寻找的三种品质的投资:一流的团队、卓越的产品和有前景的市场吸引力。我们的人工智能基础设施领域以该领域最有前途的初创企业为特色,并通过ML和AI将数据驱动的见解引入企业的新兴战略中。我对每个细分市场进行了细分,并描述了每个细分市场的前瞻性趋势,同时重点介绍了各个领域的一些著名公司。如果你有任何反馈,请在Twitter上分享。

数据访问管理

在存储数据之后,在为最终用户提供访问权限方面存在业务挑战。除了所有权和组织内各团体之间的政治问题外,法律/隐私问题还存在于客户数据的存储、分析和使用(GDPR即将实施)。

趋势:使用通过数据目录、标准包或数据市场动态应用于数据的策略,使数据具有可发现性、版本化和安全性。沿袭和数据治理是这一类别中长期存在的问题,正在积极地加以解决。

  • TamrTamr的专利软件将机器学习的能力与您对数据的了解相结合,以实现大规模数据仓库的快速统一。
  • Dremio:德雷米奥让你的所有数据自助服务。从任何工具对来自任何源的数据运行SQL
  • Immuta & Cerebro:允许团队安全地访问和处理高价值数据,而不必担心数据访问和使用策略。

智能ETL/数据管道

脏数据仍然是数据科学家面临的首要挑战,传统的基于GUI的ETL工具缺乏灵活性、易用性和对非结构化数据工作负载的健壮性。代码是处理数据的最终抽象。虽然数据科学家花了80%的时间清理数据,但也花了时间要求提供、解释和移动数据,而且还有更多的工作要做,以便能够使用数据。

趋势:分析师和开发人员需要相互作用良好的工具,其核心是构建和管理数据管道。Alteryx成功地为Tableau消费了ETL,如今,雄心勃勃的初创公司正在使用人工智能来自动化ETL和数据准备任务。

  • Nexla:帮助创建公司间数据源,以接收数据或将数据发送给具有加密和权限等安全功能的合作伙伴。
  • Astronomer:由开发人员构建,Astronomer为开发人员提供了一个“气流即服务”产品,用于工程复杂的ETL工作流。

特征工程

特征工程通过从简化学习过程的原始数据中创建特征来提高学习算法的预测能力。这需要商业专业知识和数据科学知识的结合。虽然一些数据科学平台具有基本的特征工程能力,但对于相信这是他们的特色酱的精英数据科学家来说,这是一个认真的话题。

趋势:虽然智能ETL供应商可能会在这一领域有所建树,但特征工程可能会成为业务分析师与数据科学家合作的更大热门。

  • Feature Labs:特性实验室为自动化特性工程构建工具和API。
  • ScaleAPI:Scale允许开发人员按需访问人员。他们不断增长的api套件目前处理大量的用例,比如音频转录、图像识别、分类。
  • MightyAI:最初作为Spare5发布,MightyAI建立了一个训练数据服务平台,主要用于图像和自动驾驶车辆。

建模与训练

使用Jupyter实验室等工具的组合,似乎已经出现了明显的赢家,而开源框架(Tensorflow, MxNet, PyTorch, CNTK and Keras)是主导这一类别的共识赢家。虽然有一些端到端的数据科学平台添加了UI和协作特性,但整个社区已经围绕这些开源项目联合起来。

趋势:要想让数据科学平台取得成功,将业务用户纳入其中是大多数企业都在寻找的关键特性。

  • Tensorflow:Tensorflow是一种机器学习工具。虽然TensorFlow包含广泛的功能,但它主要用于构建深层神经网络模型。
  • Dataiku:构建一个可视化的交互式工作区,数据科学家和业务分析师都可以访问。
  • SigOpt::SigOpt的API通过最先进的贝叶斯优化调整模型的参数。

部署/DevOps

随着数据科学模型被手动部署到生产环境中,效率、可伸缩性、监控和审计变得繁琐和昂贵。自动化模型部署和硬件管理变得非常重要,因为需要专门的硬件(TPU、gpu)、运行模型的尖峰计算需求以及模型治理

趋势:托管解决方案自动化了大规模培训、部署和运行模型所需的基础设施工程难题。

  • Algorithmia:自动化DevOps for AI,允许客户身份验证和许可、模型库存和发现,并使企业能够在任何云上运行。他们目前的云解决方案支持68k名开发人员和超过5k个产品模型。
  • Paperspace: PaaS使使用Paperspace管理的GPU培训和部署深度学习模型变得更加容易。
  • PipelineAI:让数据科学家和工程师可以自由地在生产中直接部署、测试和回滚他们的模型。

实验带来了数据驱动的未来

在人工智能基础设施领域,ETL和部署方面的工程挑战正在积极解决,未来几年,这两个领域都会有赢家。我认为有一个实验平台的机会,让业务涉众、工程师分析师和数据科学家来评估模型作为产品特性部署在生产中的有效性。这不仅仅是一种技术,更是一种工作流程,我对那些将在这一领域为企业开发产品的公司感到兴奋。如果你正在做这样的事情或对风景有想法,请伸出援手!

注:Algorithmia、Datalogue和Tamr是Work-Bench 投资组合公司。

原文:https://medium.com/work-bench/todays-ai-software-infrastructure-landscape-and-trends-shaping-the-market-460d0c1c26d2

本文:http://jiagoushi.pro/node/1410

讨论:请加入知识星球【首席架构师智库】或者小号【jiagoushi_pro】或者QQ群【11107777】

Tags
 
Article
知识星球
 
微信公众号
 
视频号