你应该看过那个视频吧:有人跑到苹果店里大喊一声"嘿,Siri",一瞬间几十上百个Siri齐声"在呢,什么事",那环绕立体声效堪比杜比全景声!
干这事的人无疑是为了搞笑,但也无形中戏谑了一把所谓人工智能语音助手的一个不足,那就是必须要喊唤醒词才能进行对话或下达指令。需要唤醒词唤醒的语音助手们,似乎成了天经地义,但这事现在就被颠覆了。
9月17日,天猫精灵在云栖大会发布了首个全场景人机交流系统AliGenie 5.0,首次将人脸唤醒、唇动唤醒、手势操控、语音交互等多种形态的交互方式融合在一起。
简单地说就是,我不需要再喊一声"天猫精灵",直接就能跟机器对话了,有时候做减法比做加法更难,AliGenie 5.0省掉的这一步对于人机交互来说是革命性的。
多模态唤醒首次大规模应用落地AliGenie升级到5.0后,将唇动、手势、语音语义等多种形态的交互信息融合在一起,这也就是人机交互领域常说的多模态。
模态,虽然不是我们的日常用语,但从字面意思上其实很容易理解。正如我们有视觉、听觉、嗅觉和触觉等,传递出的信息就有视频、图像、语音、手势、姿态等,每种形式可以称作一种模态。
多模态融合的人机交互一直是人工智能研究的热门领域,但此前更多停留在学术研究层面。而AliGenie 5.0系统已同步落地到天猫精灵今年的三款秋季新品上:天猫精灵CC10电池版家庭智慧屏(以下简称CC10电池版),天猫精灵CC MINI智能时钟屏以及IN糖2智能时钟音箱。其中,CC10电池版将率先上线多模态唤醒功能,并在10月中旬逐步升级覆盖CC带屏系列产品。
这是多模态唤醒首次大规模应用在消费电子产品上,不管是对阿里公司,还是整个人机交互技术领域来说,它都具有重要意义。这或许也意味着,很快你对手机、智能音箱乃至整个智能家居发号施令的方式要全面变革了。
当然,变革的前提是,天猫精灵AliGenie 5.0系统所带来的多模态唤醒体验像它们宣称的那样好。我已对CC10电池版搭载的多模态唤醒功能体验了一段时间,可以说它确实刷新了我对智能音箱这类产品的使用认知,这种感受不能说是颠覆性,却新颖又熟悉。
就像在跟身旁同事说话新颖和熟悉本是两个矛盾的词,但用在CC10电池版的交互体验上很合适。之所以说新颖是因为,居然我不需要先喊一声"天猫精灵",它就能直接回应我。
举个例子,我平时把CC10电池版放在办公桌一侧,写稿子时想要听歌了,把头一转向它,左下角的天猫精灵便提示"已人脸唤醒,我正在听……",几乎就是同时,我对它说"播放音乐",然后就开始放歌了,整个过程就像跟旁边工位的同事对话一样,根本不需要多费口舌喊声"天猫精灵"。
这也是我说它"熟悉"的原因,你想想和它对话就跟旁边同事聊天一样,自然的交流,能不熟悉吗?
升级到AliGenie5.0后,CC10电池版还支持多种手势隔空操控,比如对屏幕竖大拇指就能收藏当前播放内容,做个"嘘"的手势,就可以马上让天猫精灵静音,这种很"拟人化"的交流方式让交互感受更顺畅了。
使用过程中我还发现,从侧过脸到讲出指令,或者举手做"嘘"的手势,到CC10电池版接收指令做出反应,中间并没有太多等待时间,整个响应过程是一气呵成的,这当中也离不开多模态唤醒的作用。
据介绍,天猫精灵的算法专家通过融合视觉识别能力、语音识别能力以及上下文语义,把视觉和语音信息通过深度学习的方式进行融合然后输入到机器"大脑",进而做出综合性决策,让机器"能听、会看"。
也就是说,开启多模态唤醒功能后,在盯着机器张嘴说话时,天猫精灵会自动识别出我的唇动、眼神朝向、表情动作,接收语音信息的同时就能直接给出对应的反馈了。
使用CC10电池版的时候,我也发现,如果我对着CC10电池版时没有讲话,而旁边的同事在讲话,它也不会被误唤醒,因为这时机器接收到的声音和图像信息没有匹配。而当我在说话的时候,它接收到我的嘴唇动作和声音是匹配的信息,就会被唤醒并识别指令。
我们在对未来人工智能的畅想中,并不希望看到唤醒-接受指令这种机械的方式,而是全面"拟人化"的交流。当不需要再喊出"天猫精灵"的唤醒词,就能跟CC10电池版自然交互时,我发现这个智能助手是真的懂我了。
让每个人无差别享受AI根据天猫精灵数据,在家庭生活场景下,结合人脸、唇动唤醒和语音自然对话,多模态识别的准确率超过99%。从CC10电池版在我办公桌旁的这段时间来看,近距离的唇动唤醒成功率是很高的,即使是人声更嘈杂的办公室环境,它也没有被其他人的语音误唤醒的情况出现。
事实上,多模态唤醒相比单一的语音唤醒词能够更好降低误唤醒率。在各家智能助手发展的过程中,为了语音唤醒成功率这个指标,算法会把语音感知的灵敏度调整得很高。过高的灵敏度很容易捕捉到汉语里某些发音相似的音节,因此哪怕是一家人日常闲聊,电视里播放新闻,乃至三更半夜时,音箱里的语音助手们都可能突然说话,让人莫名其妙。
在免唤醒的对话情景下,天猫精灵需要融合嘴唇、语音的动态信息识别,能够帮助机器过滤掉90%以上的环境背景干扰信息,反而能够做到比特定的唤醒词更高的准确率,同时大大降低误唤醒率。
唇动唤醒的方式也是此次天猫精灵AliGenie 5.0系统的首创,先提取人讲话时的唇动关键特征点,经过唇动的分析,当图像序列和音频序列能成功匹配时,继而结合上下文语义综合判断出用户与机器对话的行为意图,最终唤醒设备。
搭载AliGenie 5.0的CC10电池版,根据生活中常见的"近场、中场、远场"三类人机交互情景,可以综合调动多种交互信息来确认我们的交流意图。近场也就是1米左右的交互情景下,唇动唤醒无疑是最自然的。1-1.5米左右的中场距离下,模拟人们打招呼的形式,对着机器挥手说话即可唤醒,此时也不需要喊出"天猫精灵"。
更远距离时,直接通过"天猫精灵"唤醒词下指令也是最拟人化的体验,未来,天猫精灵还将利用声纹识别技术来辨别声音来源的方向、位置,让语音唤醒的反馈更精准。虽然真实生活场景中,还会受到人脸距离、光线等因素的影响,但AliGenie 5.0在人机交互上无疑已开始一段新的征程。
有了多模态识别的能力,经过一段时间的训练,未来人工智能助手能把人和声音及声音方向、手势动作都"对号入座",在一个家庭空间中,可以真正认识、分辨出每一位家庭成员,熟知每个人的生活习惯和喜好,并且在任一位置都能与家庭成员自然交流,它与理想中的未来智能助手的样子已越来越接近了。
许多科幻电影描绘的未来生活,人工智能化身成一个不折不扣的管家,不再是被动的接受命令,而是通过用户的私人喜好与定制化需求主动提供服务。这个过程的建立就是通过自然语言的交流实现的,之所以它看起来如此美好,正是因为自然交流对于人来说几乎没有学习成本。
家庭里的成员构成复杂多样,与机器的自然交流还意味着它可以让所有人无差别使用最新技术。语音对话、唇动唤醒、眼神手势交流融合的自然交互方式,意味着在技术层面,降低了人们触达前沿科技的门槛。
网购、移动支付、网约车、外卖,还有人人都离不开的健康码,技术让许多人生活变得越来越便利,但有的人却因为种种原因无法享受到,这不是人或者技术的错,在改变的过程中,技术需要辅助人们适应变化,而不是跟人对立起来,造成所谓的"淘汰"。
天猫精灵AliGenie 5.0将多模态唤醒的落地,其实就是做了一件看起来简单但伟大的事:用跟人一样打交道的模式,为更多人提供前沿科技带来的便利,让每个人无差别享受AI。
,Copyright © 2008-2022 秒下下载站
m.down10s.com .All Rights Reserved