跳动百科

格灵深瞳赵勇:论大模型时代的AI产品进化 | 2024 ITValue Summit数字价值年会

公孙菲仁
导读 9月11日-14日,由钛媒体与ITValue共同主办的2024 ITValue Summit数字价值年会在三亚举行。此次峰会主题为“Ready For AI”,交流经验教...

9月11日-14日,由钛媒体与ITValue共同主办的2024 ITValue Summit数字价值年会在三亚举行。此次峰会主题为“Ready For AI”,交流经验教训,交叉行业思考,推动创新交易,以创新场景为基础,共同探索AI驱动下数字经济时代的全新机遇,共同打造一场数字经济时代的AI创新探索盛宴。

格灵深瞳创始人、董事长、CEO赵勇以《是虚假繁荣还是爆发前夜?论大模型时代的AI产品进化》发表了主题演讲。他表示,格灵深瞳要做一家AI时代的产品公司,在泛安防、工业检测、人机交互等领域持续深耕,深度理解用户和场景,用好的产品为广大客户创造更大的价值。

赵勇指出,之前AI之所以落地难,主要原因在于交付成本高、有效数据少、泛化能力弱。而大模型带来的是一个构建行业AI应用的全新技术范式。

用大模型解决物理世界中的原子操作问题,可以做到99.99%的体验感。并且在该领域,未来3-5年会出现一批优秀成果,能够基于人工智能生成物理世界的API。

当然,技术只是基础,产品和场景才是应用落地的关键。

以下为格灵深瞳创始人、董事长、CEO赵勇演讲实录,经钛媒体编辑整理:

今年,红杉资本分享的一项数据发现,仅过去一年,AI公司购买英伟达GPU的花费就已经超过500亿美元,而目前所有AI公司产生的营收总和却远低于这个数值。这意味着,AI行业的落地还在早期,还没有出现真正意义上的killer app。

那么AI落地难在哪儿?以自动驾驶为例,2009年我博士毕业后,花了很大精力解决谷歌自动驾驶项目中有关视觉算法的问题。十年过去,中国仍未出现一家真正规模化商业运营的自动驾驶汽车公司。我们离真正安全且可商用的无人驾驶还有较长的路要走。

相较之下,AI在安防领域取得了一定成功。市场需求推动了安防产品的发展,也给国内的AI公司带来了第一次大规模商业落地的契机。

NLP领域也曾经历“百箱大战”,但很多用户购买了智能音箱后发现,产品远未达到自己预期的智能交互水平。去年大模型的涌现,智能音箱产品的性能有所提升,包括在汽车场景下的语音通话能力也有所增强。这让我又有了新的期待。

总结来讲,过去AI之所以落地难,主要原因在于交付成本高、有效数据少、泛化能力弱。

而大模型带来的是一个构建行业AI应用的全新技术范式。大模型理论上可以通过付出较少的成本,来高效解决长尾需求从而降低交付成本,通过通用能力来解决少样本数据的问题,同时大幅提升模型的泛化能力。举几个例子。

格灵深瞳在银行安防领域深耕多年,在视频智能化应用这个细分领域做到了行业第一,过去几年为客户开发了几十个场景算法,公司自研的视觉大模型在银行这个场景落地后,很多算法的性能和稳定性得到了极大的提升;在轨道交通领域,公司研发的巡检机器人主要应用于高铁、地铁等列车的日常巡检场景,检测识别列车的零部件缺陷、故障等,但是这些真正有价值的负样本数据量不大,且很难穷举,因此以前我们的做法是跟客户一起去造一些负样本数据,比如故意弄坏一些零部件,然后作为负样本数据进行标注,但这样的效率很低。现在,我们用AIGC的方式生成了大量的负样本数据,同时轨交大模型上线后,相关算法的准确性得到了显著提升,轨交运维场景的很多长尾需求也得到了解决;在教育领域,格灵深瞳服务于学校的体育教学和考试场景,体育的项目很多,跳绳、仰卧起坐、篮球、游泳、踢毽子等,以前的模型泛化能力不强,因此我们需要针对每一个项目采集数据,训练模型,大模型能很好地解决这些问题。

有一点我需要提一下,我们通常理解的大模型往往代指的是大语言模型,目前的应用主要集中在聊天机器人和AI助手等轻量级应用上。但实际上,大模型并不仅仅包括大语言模型,视觉大模型和多模态大模型在产业界有更大的想象空间。

在算法层面,大语言模型的智能涌现有其原因。本质上,NLP研究的是人类符号语言,它本身就具备语义,大量的互联网内容都是由文字构成,而这些信息同时又是广泛开放且容易获取的。文本数据可以做无监督训练,因此在纯数字世界做机器学习相对简单。

让我们把视线从数字世界转移到物理世界。在视觉领域,摄像头捕捉的往往是物理世界中的自然数据,视觉数据不能直接用于无监督学习,且规则约束永远无法穷举,而行业数据又无法通过公开渠道获取,因此大模型在物理世界中的应用价值更大。与此同时,人工智能技术在物理世界中的交付,比数字世界要难。但是越难走的路,往往走通后的收获越大。尽管从视觉数据中获得Insight,比文本信息更难,但相应的价值更高,也更值得做。

与数字世界不同,物理世界不存在一个稳定可靠的API。今天,我们的方法是用大模型解决物理世界中的原子操作问题,然后在上层去做组合应用,从而解决不同复杂场景下的问题,这样可以做到99.99%的体验感。并且在该领域,未来3-5年会出现一批优秀成果。这也是格灵深瞳未来几年的工作重心。

而在数据方面。数据孤岛问题的形成原因之一是,客户不愿意将数据分享出来。我的建议是,如果想推动数据孤岛问题的解决,大客户最好直接找科技公司交付项目,不需要太多集成商作中间商去交付。这会增加数据流动的障碍。此外,模型训练需要非常多标注数据,今天人工标注成本依然很高,我们多年前就开始用自动标注的方式来处理数据。

此外,我认为行业Insight跟行业数据一样重要。去年OpenAI的CEO说过一段话,我挺反对。他说,大模型出来后,所有的产品经理会失业,不需要太多套壳应用。但在我看来,对场景、客户以及业务流程的深刻了解,还是极其有价值的,只有那些愿意躬身沉入到行业中的公司才能真正解决客户的问题。一方面把AI算法与特定行业场景深度融合的经验,是难以在短期内获得的;另一方面,跟很容易从开源数据学习到的语言信息不一样,视觉的东西没见过或者没做过,你就是不知道,只有深耕行业,才能积累到足够多的有效数据。大模型再厉害,也无法替代产品文化,未来优秀的产品经理和产品文化,对交付AI产品来说极其重要。

算力方面。今天最强大的H100的CUDA核数量也只有1.5万个,而人脑神经元的数量约1000亿个,差距非常大。大模型的潜力还没有被充分挖掘出来。

但是,如果每个场景都通过大模型进行实时视觉处理,非常不现实。大模型很重要,但它不能独立地主导一切,相当长一段时间里还需要小模型。而它又不同于传统深度学习的小规模模型,现在更多是依赖于大数据,在场景里通过大模型蒸馏出小模型,实现轻量部署。同时,在中心端用大模型去弥补小模型带来的性能差异。所以,我们在产品落地时采用了很多方法来分散算力,在边缘侧用小模型处理实时任务,在中心端侧用大模型验证,这种模式成本比较低。

当然,归根结底,技术只是基础,产品和场景才是应用落地的关键。唯有深耕行业,AI才能开花结果。格灵深瞳致力于做一家AI时代的产品公司,在泛安防、工业检测、人机交互等领域持续深耕,深度理解用户,理解场景,用好的产品为广大客户创造价值。