天猫精灵语音助手升级（5）

首页教程更新时间：2023-02-03 22:52:22

你应该看过那个视频吧：有人跑到苹果店里大喊一声"嘿，Siri"，一瞬间几十上百个Siri齐声"在呢，什么事"，那环绕立体声效堪比杜比全景声！

干这事的人无疑是为了搞笑，但也无形中戏谑了一把所谓人工智能语音助手的一个不足，那就是必须要喊唤醒词才能进行对话或下达指令。需要唤醒词唤醒的语音助手们，似乎成了天经地义，但这事现在就被颠覆了。

9月17日，天猫精灵在云栖大会发布了首个全场景人机交流系统AliGenie 5.0，首次将人脸唤醒、唇动唤醒、手势操控、语音交互等多种形态的交互方式融合在一起。

简单地说就是，我不需要再喊一声"天猫精灵"，直接就能跟机器对话了，有时候做减法比做加法更难，AliGenie 5.0省掉的这一步对于人机交互来说是革命性的。

天猫精灵语音助手升级,5(1)

多模态唤醒首次大规模应用落地

AliGenie升级到5.0后，将唇动、手势、语音语义等多种形态的交互信息融合在一起，这也就是人机交互领域常说的多模态。

模态，虽然不是我们的日常用语，但从字面意思上其实很容易理解。正如我们有视觉、听觉、嗅觉和触觉等，传递出的信息就有视频、图像、语音、手势、姿态等，每种形式可以称作一种模态。

多模态融合的人机交互一直是人工智能研究的热门领域，但此前更多停留在学术研究层面。而AliGenie 5.0系统已同步落地到天猫精灵今年的三款秋季新品上：天猫精灵CC10电池版家庭智慧屏（以下简称CC10电池版），天猫精灵CC MINI智能时钟屏以及IN糖2智能时钟音箱。其中，CC10电池版将率先上线多模态唤醒功能，并在10月中旬逐步升级覆盖CC带屏系列产品。

天猫精灵语音助手升级,5(2)

这是多模态唤醒首次大规模应用在消费电子产品上，不管是对阿里公司，还是整个人机交互技术领域来说，它都具有重要意义。这或许也意味着，很快你对手机、智能音箱乃至整个智能家居发号施令的方式要全面变革了。

当然，变革的前提是，天猫精灵AliGenie 5.0系统所带来的多模态唤醒体验像它们宣称的那样好。我已对CC10电池版搭载的多模态唤醒功能体验了一段时间，可以说它确实刷新了我对智能音箱这类产品的使用认知，这种感受不能说是颠覆性，却新颖又熟悉。

天猫精灵语音助手升级,5(3)

就像在跟身旁同事说话

新颖和熟悉本是两个矛盾的词，但用在CC10电池版的交互体验上很合适。之所以说新颖是因为，居然我不需要先喊一声"天猫精灵"，它就能直接回应我。

举个例子，我平时把CC10电池版放在办公桌一侧，写稿子时想要听歌了，把头一转向它，左下角的天猫精灵便提示"已人脸唤醒，我正在听……"，几乎就是同时，我对它说"播放音乐"，然后就开始放歌了，整个过程就像跟旁边工位的同事对话一样，根本不需要多费口舌喊声"天猫精灵"。

这也是我说它"熟悉"的原因，你想想和它对话就跟旁边同事聊天一样，自然的交流，能不熟悉吗？

天猫精灵语音助手升级,5(4)

升级到AliGenie5.0后，CC10电池版还支持多种手势隔空操控，比如对屏幕竖大拇指就能收藏当前播放内容，做个"嘘"的手势，就可以马上让天猫精灵静音，这种很"拟人化"的交流方式让交互感受更顺畅了。

使用过程中我还发现，从侧过脸到讲出指令，或者举手做"嘘"的手势，到CC10电池版接收指令做出反应，中间并没有太多等待时间，整个响应过程是一气呵成的，这当中也离不开多模态唤醒的作用。

据介绍，天猫精灵的算法专家通过融合视觉识别能力、语音识别能力以及上下文语义，把视觉和语音信息通过深度学习的方式进行融合然后输入到机器"大脑"，进而做出综合性决策，让机器"能听、会看"。

也就是说，开启多模态唤醒功能后，在盯着机器张嘴说话时，天猫精灵会自动识别出我的唇动、眼神朝向、表情动作，接收语音信息的同时就能直接给出对应的反馈了。

天猫精灵语音助手升级,5(5)

使用CC10电池版的时候，我也发现，如果我对着CC10电池版时没有讲话，而旁边的同事在讲话，它也不会被误唤醒，因为这时机器接收到的声音和图像信息没有匹配。而当我在说话的时候，它接收到我的嘴唇动作和声音是匹配的信息，就会被唤醒并识别指令。

我们在对未来人工智能的畅想中，并不希望看到唤醒-接受指令这种机械的方式，而是全面"拟人化"的交流。当不需要再喊出"天猫精灵"的唤醒词，就能跟CC10电池版自然交互时，我发现这个智能助手是真的懂我了。

让每个人无差别享受AI

根据天猫精灵数据，在家庭生活场景下，结合人脸、唇动唤醒和语音自然对话，多模态识别的准确率超过99%。从CC10电池版在我办公桌旁的这段时间来看，近距离的唇动唤醒成功率是很高的，即使是人声更嘈杂的办公室环境，它也没有被其他人的语音误唤醒的情况出现。

天猫精灵语音助手升级,5(6)

事实上，多模态唤醒相比单一的语音唤醒词能够更好降低误唤醒率。在各家智能助手发展的过程中，为了语音唤醒成功率这个指标，算法会把语音感知的灵敏度调整得很高。过高的灵敏度很容易捕捉到汉语里某些发音相似的音节，因此哪怕是一家人日常闲聊，电视里播放新闻，乃至三更半夜时，音箱里的语音助手们都可能突然说话，让人莫名其妙。

在免唤醒的对话情景下，天猫精灵需要融合嘴唇、语音的动态信息识别，能够帮助机器过滤掉90%以上的环境背景干扰信息，反而能够做到比特定的唤醒词更高的准确率，同时大大降低误唤醒率。

唇动唤醒的方式也是此次天猫精灵AliGenie 5.0系统的首创，先提取人讲话时的唇动关键特征点，经过唇动的分析，当图像序列和音频序列能成功匹配时，继而结合上下文语义综合判断出用户与机器对话的行为意图，最终唤醒设备。

搭载AliGenie 5.0的CC10电池版，根据生活中常见的"近场、中场、远场"三类人机交互情景，可以综合调动多种交互信息来确认我们的交流意图。近场也就是1米左右的交互情景下，唇动唤醒无疑是最自然的。1-1.5米左右的中场距离下，模拟人们打招呼的形式，对着机器挥手说话即可唤醒，此时也不需要喊出"天猫精灵"。

天猫精灵语音助手升级,5(7)