京东云春节前的一次暖心实验照亮了他们回家的路--快科技--科技改变未来

正文内容 评论（0）

京东云春节前的一次暖心实验照亮了他们回家的路

2024-01-25 16:30:42 作者：梦佳编辑：梦佳评论(0)

#京东

年关将至，点开任何一个社交平台，主流的喧闹之外，你都可以看见那些被各种理由困住回家脚步的人。衣锦还乡是不少人的执念，这份执念也成为了他们回家的羁绊。

老家的父母接到去异地开店的儿子电话，与他们想的不一样，烧烤店红火了一段时间，现在已经经营不下去了；“小赵”也给父母拨去了电话，今年过年只有她一个人回来……

事业遇阻、离异……是他们的害怕回家心结，而电话那头的回音是“等你回家。”

这是近日，京东云联合Intel、三联生活实验室在春节前做的一次暖心实验，依托京东云言犀大模型和言犀智能外呼产品，帮助那些害怕回家的人拨开云雾，看到那些心结背后的真实答案。

教机器说话像真人，言犀用了什么“魔法”

智能外呼拨出的电话，不仅能听懂顾客方言、理解口语化表达，还能判断出客户情绪给出针对性反馈。这样“神奇”的对话能力，来自背后的一系列语音技术。

智能外呼有几项关键任务：听懂对方在说什么（ASR语音识别技术），做出正确的回应（NLP自然语言处理），用声音回复对方（TTS语音合成技术）。

其中，TTS负责合成有感情、有温度、自然流畅的声音。TTS合成声音的流水线，又分为文本处理-声学模型-声码器三部分。声学模型把文字变成声音频谱，声码器则将声音频谱变成真正的声音。

声学模型作为语音合成的“发动机”，始终在进化。最原始的方法是针对所有话术采集声音，再拼接起来。这样不仅工作量大，拼接效果也不自然。后来神经网络兴起，能够生成没采集过的声音，并与录音部分保持音色一致。言犀团队使用的声学模型，也从自回归模型转向非自回归，推理更加稳定。

到如今，言犀团队使用主流的freespeech2模型，训练和合成语音的速度更快，音质也超过所有自回归模型。Transformer架构兴起后，言犀团队还在开发声音模态的大模型，即将上线。

声学模型已经能完美复刻真人的音色，做到生成语音与录音的无缝拼接。但对于音色以外的副语言，比如语速、语调、重音、倒吸气等，声学模型则无法还原。这些副语言正是声音表达情绪、听起来像真人说话的关键要素。没有了副语言，声音就会过于“正确”、听起来冰冷而僵硬。

模仿这些副语言的技术被称为“风格迁移”。对于风格迁移，言犀团队拆解成两个层面：在文本层面，添加口头语，类似“比如说”、“然后”等连接词。因为真人说话需要时间思考，这些口头语让外呼机器人更像真人。在语音层面，则将重音、语调变化等拆解成音素的细颗粒度，用无监督模型来学习它们的组合规律。

这些副语言在声音中分布稀疏，采用隐式建模的方法无法捕捉到规律。而将声音拆解为音素后，声音模型则可以捕捉到语调、重音等特征，更好还原出真人说话的副语言风格。

风格迁移解决了“说得像”的问题，但机器还要知道什么时候说。VAD（语言端点检测）能够简单判断对方是否在说话。但真人说到一半会停下来思考，并没有说完。有时在倾听时说“嗯”“好的”仅表示附和，并非要接话。有时人们还会打磕巴、重复发言，或是省略说话内容。

对于这种复杂的对话决策，言犀团队开发出一套多模态话语决策模型：既通过NLP（自然语言处理）判断对方语义是否完整，也通过ASR（语音识别）捕捉语调和语气的变化，综合判断何时开始发言。

这些技术综合起来，实现了堪比真人的语音交互能力。如果外呼语音听着像机器，顾客往往会马上挂断。只有听起来像真人，对方才会继续倾听甚至交流，让外呼语音有机会说出业务内容。在技术层面完善后，言犀智能外呼也迎来了业务的检验。

“听得懂”又“说得好”，获客增长有了新“技术红利”

李女士不久前接到京东的电话，“过了腊八就是年，京东年货节今晚8点开启……林海雪原的山珍，西北的牛羊，中原的面食，东南的鲜味”，电话那头“舌尖美食感召力”十足，李女士一下就听出来这让人无比熟悉、感到“垂涎”的声线来自著名配音表演艺术家李立宏。“李老师和我拜年，我也和他讲了讲我们四川自贡过年的食俗”。

这通电话正是由京东云言犀技术支持的智能外呼，据悉这个智能外呼项目已为京东年货节提升到站率56%，下单转化率增幅达51%（对比未接通用户），“品牌营销已经这么智能了吗？”李女士发帖感叹这次电话“奇遇”。

京东云言犀智能外呼服务，它既能做到真人般的对话体验，还能提供有温度的情感连接，已成为品牌商家营销增长、维系客户关系的有力帮手。

在2018年研发智能外呼之初，言犀团队负责人就提出：“要做有温度、有感情的智能服务。”这些有温度的声音，也成为品牌商家营销增长和维系客群的有效工具。

言犀的语音风格迁移能力，让智能外呼能“说得好”业务诉求，也能“听得懂”客户心声。在“说得好”方面，传统的通知型外呼声音柔和、语气平稳。但营销外呼和数字人主播需要声音情绪饱满、抑扬顿挫。言犀从源头采集了头部主播和金牌销售的说话方式，训练模型，并跟商家反复实验，最终复刻了他们的韵律和声调。

目前，言犀团队已经形成完整的“声音供应链”：从开始供应声音最基础的元素上就进行规范，制定标准，用技术进行相应的适配。后续训练出声音后，与商家多次沟通、评估外呼和直播效果，持续迭代声音。最终生成的语音服务，就能在零售、金融、政务等多个场景都具备感染力。

在“听得懂”方面，言犀ASR语音识别技术能够识别不同的语气，并给出不同话术。顾客同样说“我知道了”，如果重音落在“知”上，语调先升后降，可能说明客户已经不耐烦，需要推出安抚话术。如果顾客的重音不明显、语调平缓，外呼机器人就会继续讲解业务逻辑。这种“听得懂”的能力，极大程度降低因无效沟通带来的挂断率。

任何技术要走向实际应用，都少不了“吃自己狗粮”的打磨。而京东正拥有极其广泛的业务场景，能够让智能外呼持续进化。在京东物流，智能外呼就提供预约配送、服务回访、异常通知等40多个场景的服务，覆盖超过130个品类。在高峰期，智能外呼每天的呼出量超过100万通，对话识别率高达98%，服务满意度达到96%。

在打磨顺滑后，言犀智能外呼走向外场，成为品牌商家营销获客的利器。伊利发布碳酸乳饮新品“乳汽PET”时，就采用智能外呼定制了明星代言人“时代少年团”的声音。在10余天的首发活动中，智能外呼呼出16.7万人次，首天就带动伊利小程序渠道售出超过6万瓶饮料，ROI超过4.0。

舍得就业发布新品时，对比未外呼人群：使用外呼后，客户付费转化率提升了468%。京东生鲜的大闸蟹品类，接入智能外呼后ROI达到159.3。

归根结底，智能外呼服务是技术发展带来的“获客增长红利”。在流量昂贵的今天，智能外呼能够精准、主动地触达用户，并且只需要付出语音外呼的低廉成本。不断突破的技术，让这种红利的诞生成为可能。相比千人一面的文案和图像，在2024年开年，更有情绪和温度的智能外呼不仅为更多品牌和企业创造了价值，也给大量消费者带来温暖和亲切的体验，让AI技术的广泛应用掀开了大幕的一角。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：梦佳