正文内容 评论(0)
9月5日上午,众多一线创业者、投资者和数据科学家齐聚线上,围绕MLOps在数据工程部署中的Data-centric VS Model-centric 的应用策略,及由此引发的MLOps的未来发展趋势展开讨论,格物钛创始人兼CEO崔运凯作为data-centric开发理念的代表出席了此次活动。
开场投资人Sue分享了自己与Scale.ai错过的故事,2013年在美国 Databricks成立,2016年,随着谷歌基于深度学习开发的AlphaGo以4:1的比分战胜了国际顶尖围棋高手李世石,人工智能的热度一时无两,就在同一年Scale.ai诞生,开始在AI数据赛道跑马圈地,直到特斯拉推出了Model S Autopilot功能,自动驾驶的蓬勃发展催生了对大规模高质量标注数据的需求,行业内开始普遍出现了数据优先的认知。在众多的数据标注公司中,Scale.ai能以73亿美金的估值突出重围受到市场的青睐,我们认为最重要的原因是它采用了自动化的方式把数据标注这件事做到了规模化。
接着来自Facebook的算法工程师洪磊从AI开发者的角度阐述了MLOps在AI落地层面的重要性。MLOps的概念脱胎于DevOps,本质上是通过自动化工具使开发流程更高效。训练机器学习模型,只是整个开发过程中一个非常小的部分,算法工程师80%的时间都用在了处理、清洗、迭代数据、版本管理等耗时耗力的数据准备工作上。为了加速AI开发流程,DevOps 原理和做法,例如持续集成、持续交付和持续部署逐步被应用到机器学习过程,MLOps应运而生。
过去10年,机器学习大规模落地,但是AI开发工具链仍然处于一个相对原始刀耕火种的阶段。在机器学习领域一直存在Data-centric 和 Model-centric 策略之争。如果以做饭举例的话,数据相当于食材,模型相当于菜谱。如果想要提升菜品质量,data-centric相当于调整现有食材,model-centric类似于改进烹饪方法。
Uber算法出身的创业者格物钛创始人兼CEO崔运凯对AI数据上的痛点深有体会,在Uber灌满100PB(1PB=1024TB)的数据池可能只需要几个月的时间,这是硅谷其他以处理结构化数据为主的公司不可能遇到的。这相当于让崔运凯提前5-6年看到了AI落地面临的问题。
当时,Uber 除了在印度有很大的数据生产团队外,还将部分数据需求外包给位于西雅图的创业公司,除了要承受昂贵的价格(当时的定价是1张图片5美金),冗长的等待时间(5000张图片大概需要做4个月),还要解决数据的对接、跨境分发、检索、整理及真值数据的保存和使用等一系列难题。而对于无人驾驶来说,训练至少要亿级图片,这无异于把问题难度又放大了数万倍。
2018年,崔运凯回国创业,担任一家高精度地图公司的合伙人。在研发过程中,需要收集海量数据来进行模型训练。为了管理和使用这些数据,崔运凯需要一个合适的数据平台,却苦于找不到一家能够满足需求的公司。
这时的他深刻意识到,无论是国内还是国外,人工智能的整个工具链都非常早期和不完善,如果再做一家AI公司,还会遇到同样的工具问题,还得花大代价把这些问题再解决一遍。
为此,崔运凯干脆决定自己来搭建这样一个平台,通过打造AI的数据基础设施,去系统性地解决问题,使得前东家这样的AI应用开发,难度更低、效率更高。
现场的另一位创业者深度赋智创始人兼CEO吴承霖听后频频点头,他认为从机器学习开发过程各要素的重要性来看数据>特征>模型。机器学习发展至今各公司缺乏的不是模型,而是对数据更高效的利用。吴承霖曾在大厂做过很多很有意思的工作,比如搜索推荐、LP等,给前东家带来了数十亿收入,也发表了当时内部第一篇KDD。但他的团队也发现了一些商业成功背后隐藏的效率问题,比如当时在集团内部AI团队多达50多个,这些团队面向不同的业务场景,中间存在大量冗杂重复性工作,为了优化工作流程,企业开发了自己的AI中台,帮助复用、组合创新、规模化构建智能服务。但数据的利用问题仍然没有得到很好的解决,在AI开发过程中,产生了大量的推荐信息流以及用户行为数据,这些数据如果能被充分利用,预估将会带来50%以上的业务提升。因此,吴承霖选择创立深度赋智正式入局AI中台市场,致力于降低AI落地成本,让每家企业都具有开箱即用的AI能力。
针对企业究竟要选择data-centric还是model-centric的问题,格物钛创始人兼CEO崔运凯提供了一个从企业发展出发的思考角度,公司选择用data-centric还是model-centric的背后本质上是一套ROI驱动的组织管理哲学,对于一个组织来说如何如何将有限的资源在算力、数据、人员上进行合理配置是非常重要的,例如像特斯拉这样的迭代较快的公司,有很多算法工程师,用MLOps去做组织串联和分层是十分必要的,它能帮助数据更快流动,发挥数据的价值。格物钛的产品能够在数据产生初期帮助用户对数据做迭代和管理,用可控的资源去提升ROI。一家创业公司不可能去做所有的事,需要找到切入点。在上下游产业链上格物钛的产品可以和深度赋智的产品深度集成,数据和模型两者结合才为用户产生更多价值,为AI落地创造更多可能性。
格物钛崔运凯表示:“未来,构建机器学习产品将更加有趣,并且这些系统会工作得更好。随着机器学习自动化工具的不断改进,数据科学家和算法工程师将把更多的时间花在构建优秀的模型上,而花在与生产级 ML 系统相关的繁琐但必要的任务上的时间会更少。这也是格物钛选择在AI底层工具链上做创新的初心。”
参考资料:
马斯克首谈 Autopilot 诞生缘由:一切始于一场车祸
未来,机器学习所需的工程量会大大减少
从数据中台到AI中台
深度学习(deep learning)发展史
ML Ops:数据质量是关键