本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“数字先行者”共同探讨、碰撞,希望这些内容能让你有所启发。
围绕大模型的开发和应用一直都很热闹,从厂商推出模型、迭代、价格战,到行业模型争相亮相、企业应用不甘落后。相较于很多企业希望能尽快诞生一款 AI 产品来抢占市场,新东方业务背后提供技术支持的新东方信管团队显得不疾不徐,一边洞察行业的前沿尝试,另一边在脚踏实地从 ROI 最高的场景切入。
对于教育科技公司而言,不断提高教学教研质量永远是第一要务。围绕这一长期目标构建的 IT 系统和组织架构,也时刻将追求业务价值视为原则。新东方信管团队对生成式 AI 落地业务场景的策略是:以服务业务为导向,尽量借助第三方服务商的通用能力将业务快速跑通。“我们一般不会主动做从零开始的 AI 投入,更多是需要跟随业务规划,进行更加密切地配合。”新东方集团信管 云教室负责人么敬国介绍称,在探索生成式 AI 技术应用上,会尽量采用成熟厂商的解决方案,不仅仅是因为专业厂商有专业过硬的技术,还有长期合作对其业务的理解,同时厂商还具备成熟的客户服务体系,后期能实现顺畅的沟通和服务响应。阿里云在大模型应用之前已经与新东方合作多年,加之横评有优势的产品,成为大模型能力提供方也是意料之中。
选场景:开启大模型之路
具体到大模型落地,很多时候第一步并不是找痛点,而是找场景。这意味着,企业需要先征集业务侧高价值场景,基于投入产出比进行优先级判定。新东方的教育业务场景中也是如此,最先落地的场景并不一定是业务量最高的领域,而往往是业务需求更急迫、更容易得到直接成效的领域。
场景一:直播课。试想以下情景:当学生参加一场考研数学的大型直播课,却因为迟到 20 分钟上线,对入会前老师所讲的某个大题信息点一无所知;或者英语听力不佳,又处于嘈杂的外部环境无法集中精神学习,如何快速捕捉老师课中讲话重点和信息要点?又或者,学生的时间不够灵活,没有办法听直播课,一连拖了十几个小时的课时量,望着堆积如山的课程和讲义,除了倍速听课,能不能实现快速捕捉随堂重点或者直接生成一份随堂笔记?
这类问题其实在直播课场景中非常常见,但很多教育产品过去将主要精力投入在教育内容的研发上,并没有过多关注这类用户痛点。
在新东方业务中,专注于教育垂直场景的直播教室解决方案是“云教室”,这是新东方自主研发的线上课程平台,满足学生随时随地在线学习的需求。
“字幕和内容总结”就是来自业务部门针对直播痛点的诉求,这样不仅能提升学生的观看体验,还能帮助他们更准确地捕捉对话和重要信息,提高对视频内容的理解和接受度。
不过,并非所有的视频课需要关联字幕,这取决于具体的课程内容和听众对象,字幕的语言和类型也可能因课程而异,以满足不同需要。比如,“字幕”这一原始诉求并不是来自业务量最大的高中业务,而是由大学事业部提出的。尽管新东方高中视频课业务量相对更高,但回放率非常低,因为学生一般会按时上课、优先选择直 播课,而大学事业部直播课到课率就低得多,学生会更加在意回放视频效果,这也是为什么大学事业部会非常强调字幕的精准性。而且,大学业务的视频课很多是提前录制,通过对视频内容生成一份总结,对看回播的学生来说效率更高。
场景二:质检。新东方每天都会接到大量的课程咨询电话、在线留言,咨询内容和咨询者的情况各异,但其核心诉求仍然是学习知识。用户与新东方客服平台产生大量沟通,里面可能存在用户诉求、对学习情况的反馈满意度、以及影响成单的各种信息......但从成本和效率等因素考虑,新东方一直无法将所有沟通信息进行全面质检,只能抽检。新东方也设置了通过用户主动打分来判断 NPS(Net Promoter Score,净推荐值)。“但这个动作其实后置了一些。”新东方大学事业部 P 端产品负责人张辰指出。“一旦出现服务质量问题,我们以前要么是与客户高频反复沟通以拿回更多的数据,判断用户的满意度和行为,要么就是通过全程跟踪,投入大量的人力物力分析每一次沟通的内容,判断用户的行为,不过这显然不现实,我们是做不到宽度和广度同时具备的。”
对非常关注沟通质量和效率的新东方而言,亟需一套敏锐判断用户反馈和深度挖掘、精准触达用户需求的解决方案。
不难发现,新东方内部服务于不同学生群体、提供不同产品和服务,以及不同增长体量的各个业务部门,对大模型给各自业务的赋能场景有不同的考量和诉求。而在接入基于通义大模型驱动的通义听悟能力后,这些诉求得到了解决,大模型的能力在不同产品线上诞生了差异化的落地方式和应用价值。
技术落地:从提示词工程做起
2023 年上半年开始,伴随 ChatGPT 等生成式 AI 技术的火热,新东方也开始了大模型与教育业务结合的探索,新东方信管团队与通义大模型团队基于通义听悟在音视频领域的合作也是在此期间展开。
新东方最早跟阿里云的大模型合作探索便是解决云教室视频课的字幕和内容总结诉求。
首先,阿里云将新东方信管团队提供的一些教学场景原始音视频数据、文本数据作为基础素材,在语音识别 ASR、声纹识别、语义理解等多个技术引擎中并行处理,得到处理后的文本数据;然后,将这些文本数据进行人工标注、修正后结合更多自有专业语料“喂”给大模型进行处理。
测试阶段,训练好的大模型会被接入新东方工作流中,使用者上传音视频材料的同时,也可以通过提示词进行工程化适配,让大模型通过推理、反馈,不断学习教育场景的说话特征,包括专业术语与缩写识别、演讲者口音等等。
这其中的复杂点在于,需要对不同学科教学中涉及的大量专业术语进行精准识别、判断。例如,一堂视频教学课上,老师除了讲述与教学相关的专业知识或术语外,还会包含一些日常对话。过去,小模型并未实现泛化,依然停留在工具属性,只能做到机械地语音转文字,无法根据上下文分析判断,或者只能耗费大量人工进行标注。如今,依靠大模型的推理能力,这一诉求得以实现。
整体解决方案上,得益于阿里云基础大模型强大的理解能力,新东方信管团队不必花费过多精力在数据预处理或数据标注的工作,有效降低了初始使用成本。同时,企业无需深入了解技术细节,大模型能力可无缝集成到现有系统中,业务团队可以快速上手。而随着基础模型能力加强,团队无需对模型进行微调,只需强化提示词 工程或进一步使用 RAG(检索增强生成)技术手段即可持续提升模型生成的准确性。双方经历两个多月的密切配合和反复调优后,收获了初步成效。
如今,在“直播课”场景,新东方通过通义听悟实现了对视频课的自动章节总结,根据章节把每个节点自动打点,打点完之后把打点范围之内的文本内容做沉淀、总结。以前,一节课需要 40-50 分钟才能看完;现在,通过分段、知识点的总结、课程内容的梳理之后,学生在学习知识这件事情上的时间成本得以降低,在快速习得每节课主旨、知识点之外,还可以一键生成思维导图,激发系统化的思考能力。
在“质检”场景,一个是在销售场景,贯穿售前、售中、售后;另一个是教学场景,贯穿学前、学中、学后。通过使用通义听悟对沟通线索进行挖掘和分析,实现了成单率和用户教学满意度方面的提升。
比如在销售场景,在成单之前可以通过大模型做“质检”,提炼一些精彩的话术,推荐给售前人员促成单;售后环节,通过大模型分析员工跟客户之间的沟通,检测违规情况或者发现一些好的案例推广学习,进而提高服务质量。具体实现过程是:首先,将所有的沟通线索包括学习过程中的电话、文字沟通,转换成本文信息;然后,将这些文本和原有的原生文本一起“喂”给大模型;在这个过程中,需要结合行业理解,对每一次沟通做提示词管理,判断每一次沟通的内容质量,除了理性判断问题是否得到解决,还可以沉淀沟通双方的情绪等感性方面的数据。
自 2023 年年末以来,新东方整体学员满意度实现了 3% 的稳步增长。初见之下,这一数字增长看似适度,但若回顾新东方长期以来致力于优化并持续提升学员满意水平的历程,便会发现,能在已然高企的基础上进一步显著提升的空间极为有限。尤其是与以往仅能进行极少量的“抽查”,且即便投入巨大人力物力仍难以实现全面覆盖的情况相比,现今依托于大型模型,新东方已经找到了新的解决策略。
AI 教育仍在持续深化
一直以来,教育行业都在尝试通过 AI 技术实现功能适配和场景融合。从个性化学习、学生学习行为分析预测、教育内容创作、虚拟助教、口语教练......国内不少教育企业早些年就已经在探索 AI 在自身业务领域的结合点。
从一堂教学课来说,分为课前、课中、课后三个环节,这其中都存在 AI 技术应用落地的空间。新东方信管团队对未来教育科技的趋势也有自己的思考和判断:在课前环节,有智能分级考,通过 AI 系统自动增加 / 降低题目难度;在课中环节,通过 AI 图像语音识别技术实现督课、教学质量评估、学习质量评估、录播视频锚点自动插入、知识点自动切分、知识点和题库匹配等效果, 实现教学质量提升;课后环节,在作业评价和习题题库方面,AI 可以对主观题做 OCR 识别、情感识别、语义分析等处理,自动完成大量课后教学工作;此外,还可以设置虚拟教师角色贯穿全环节进行智能交互问答。
比如,在“口语陪练”场景。雅思、托福考试中口语练习是难点之一。过去,要么是线下跟真人考官交流,要么是线上跟系统聊天。但问题是,这类考试需要考生熟悉各类话题,话题的灵活度和变化度较高,没有固定的答题思路,与机器对话比较固定,考生只能根据播放的音频,进行固定式回答。如果可以基于大模型能力生成 虚拟教师角色,让考生进入到类似于真人的沉浸式对话中,这一场景将实现显著的降本增效。
但就目前而言,大模型驱动的生成式 AI 应用,还在优先尝试在线智能问答、智能写作、翻译、分析和个性化推荐、客服等场景。受限于模型缺陷、工程化能力等因素,教育行业的其他环节尝试仍显得太不成熟。
例如,对于教师教学中的辅助备课、出题,由于知识密集型的专业领域,已有的知识体系非常完备且精准,大模型幻觉问题尚无法根治,加之成本投入等因素,综合应用效果并不理想。
同时,不同业务主体,即便是使用同一套应用,也会存在差异性痛点,需要结合实际业务需求进行场景功能设计。例如,在新东方前途教育,老师会根据学生做大量的选校、背景分析、培训等沟通咨询服务,服务周期长,通过视频挖掘信息的诉求非常强烈;而针对于成人及大学教育课堂,老师通常会录播或直播教学,往往在高峰 期就需要线上课程作为支撑,但这类课程对视频的实时交互性需求比较少。
大模型正在走向通用。一直以来,语音识别、语音合成 技术的发展脉络,都是在不断提升对语音数据预处理的复杂度,从而降低技术门槛。大模型通过引入注意力机制,不需要再对语音和文本的局部对应关系进行单独处理,这使得对训练数据的处理难度极大降低。未来,通过算法驱动题库匹配实现个性化,再加上实时音视频能力提升,也将有助于老师备课、教学和组织考试。
教育科技无疑将迈入一个融合多模态、更加智能化的场景时代,与此同时,人工智能技术的实施落地正处于迅猛发展的迭代阶段。对于新东方而言,与通义大模型的融合应用探索与实践正在不断深入并持续拓展。