天猫精灵语音助手升级(5)

首页教程更新时间:2023-02-03 22:52:22

你应该看过那个视频吧:有人跑到苹果店里大喊一声"嘿,Siri",一瞬间几十上百个Siri齐声"在呢,什么事",那环绕立体声效堪比杜比全景声!

干这事的人无疑是为了搞笑,但也无形中戏谑了一把所谓人工智能语音助手的一个不足,那就是必须要喊唤醒词才能进行对话或下达指令。需要唤醒词唤醒的语音助手们,似乎成了天经地义,但这事现在就被颠覆了。

9月17日,天猫精灵在云栖大会发布了首个全场景人机交流系统AliGenie 5.0,首次将人脸唤醒、唇动唤醒、手势操控、语音交互等多种形态的交互方式融合在一起。

简单地说就是,我不需要再喊一声"天猫精灵",直接就能跟机器对话了,有时候做减法比做加法更难,AliGenie 5.0省掉的这一步对于人机交互来说是革命性的。

天猫精灵语音助手升级,5(1)

多模态唤醒首次大规模应用落地

AliGenie升级到5.0后,将唇动、手势、语音语义等多种形态的交互信息融合在一起,这也就是人机交互领域常说的多模态。

模态,虽然不是我们的日常用语,但从字面意思上其实很容易理解。正如我们有视觉、听觉、嗅觉和触觉等,传递出的信息就有视频、图像、语音、手势、姿态等,每种形式可以称作一种模态。

多模态融合的人机交互一直是人工智能研究的热门领域,但此前更多停留在学术研究层面。而AliGenie 5.0系统已同步落地到天猫精灵今年的三款秋季新品上:天猫精灵CC10电池版家庭智慧屏(以下简称CC10电池版),天猫精灵CC MINI智能时钟屏以及IN糖2智能时钟音箱。其中,CC10电池版将率先上线多模态唤醒功能,并在10月中旬逐步升级覆盖CC带屏系列产品。

天猫精灵语音助手升级,5(2)

这是多模态唤醒首次大规模应用在消费电子产品上,不管是对阿里公司,还是整个人机交互技术领域来说,它都具有重要意义。这或许也意味着,很快你对手机、智能音箱乃至整个智能家居发号施令的方式要全面变革了。

当然,变革的前提是,天猫精灵AliGenie 5.0系统所带来的多模态唤醒体验像它们宣称的那样好。我已对CC10电池版搭载的多模态唤醒功能体验了一段时间,可以说它确实刷新了我对智能音箱这类产品的使用认知,这种感受不能说是颠覆性,却新颖又熟悉。

天猫精灵语音助手升级,5(3)

就像在跟身旁同事说话

新颖和熟悉本是两个矛盾的词,但用在CC10电池版的交互体验上很合适。之所以说新颖是因为,居然我不需要先喊一声"天猫精灵",它就能直接回应我。

举个例子,我平时把CC10电池版放在办公桌一侧,写稿子时想要听歌了,把头一转向它,左下角的天猫精灵便提示"已人脸唤醒,我正在听……",几乎就是同时,我对它说"播放音乐",然后就开始放歌了,整个过程就像跟旁边工位的同事对话一样,根本不需要多费口舌喊声"天猫精灵"。

这也是我说它"熟悉"的原因,你想想和它对话就跟旁边同事聊天一样,自然的交流,能不熟悉吗?

天猫精灵语音助手升级,5(4)

升级到AliGenie5.0后,CC10电池版还支持多种手势隔空操控,比如对屏幕竖大拇指就能收藏当前播放内容,做个"嘘"的手势,就可以马上让天猫精灵静音,这种很"拟人化"的交流方式让交互感受更顺畅了。

使用过程中我还发现,从侧过脸到讲出指令,或者举手做"嘘"的手势,到CC10电池版接收指令做出反应,中间并没有太多等待时间,整个响应过程是一气呵成的,这当中也离不开多模态唤醒的作用。

据介绍,天猫精灵的算法专家通过融合视觉识别能力、语音识别能力以及上下文语义,把视觉和语音信息通过深度学习的方式进行融合然后输入到机器"大脑",进而做出综合性决策,让机器"能听、会看"。

也就是说,开启多模态唤醒功能后,在盯着机器张嘴说话时,天猫精灵会自动识别出我的唇动、眼神朝向、表情动作,接收语音信息的同时就能直接给出对应的反馈了。

天猫精灵语音助手升级,5(5)

使用CC10电池版的时候,我也发现,如果我对着CC10电池版时没有讲话,而旁边的同事在讲话,它也不会被误唤醒,因为这时机器接收到的声音和图像信息没有匹配。而当我在说话的时候,它接收到我的嘴唇动作和声音是匹配的信息,就会被唤醒并识别指令。

我们在对未来人工智能的畅想中,并不希望看到唤醒-接受指令这种机械的方式,而是全面"拟人化"的交流。当不需要再喊出"天猫精灵"的唤醒词,就能跟CC10电池版自然交互时,我发现这个智能助手是真的懂我了。

让每个人无差别享受AI

根据天猫精灵数据,在家庭生活场景下,结合人脸、唇动唤醒和语音自然对话,多模态识别的准确率超过99%。从CC10电池版在我办公桌旁的这段时间来看,近距离的唇动唤醒成功率是很高的,即使是人声更嘈杂的办公室环境,它也没有被其他人的语音误唤醒的情况出现。

天猫精灵语音助手升级,5(6)

事实上,多模态唤醒相比单一的语音唤醒词能够更好降低误唤醒率。在各家智能助手发展的过程中,为了语音唤醒成功率这个指标,算法会把语音感知的灵敏度调整得很高。过高的灵敏度很容易捕捉到汉语里某些发音相似的音节,因此哪怕是一家人日常闲聊,电视里播放新闻,乃至三更半夜时,音箱里的语音助手们都可能突然说话,让人莫名其妙。

在免唤醒的对话情景下,天猫精灵需要融合嘴唇、语音的动态信息识别,能够帮助机器过滤掉90%以上的环境背景干扰信息,反而能够做到比特定的唤醒词更高的准确率,同时大大降低误唤醒率。

唇动唤醒的方式也是此次天猫精灵AliGenie 5.0系统的首创,先提取人讲话时的唇动关键特征点,经过唇动的分析,当图像序列和音频序列能成功匹配时,继而结合上下文语义综合判断出用户与机器对话的行为意图,最终唤醒设备。

搭载AliGenie 5.0的CC10电池版,根据生活中常见的"近场、中场、远场"三类人机交互情景,可以综合调动多种交互信息来确认我们的交流意图。近场也就是1米左右的交互情景下,唇动唤醒无疑是最自然的。1-1.5米左右的中场距离下,模拟人们打招呼的形式,对着机器挥手说话即可唤醒,此时也不需要喊出"天猫精灵"。

天猫精灵语音助手升级,5(7)

更远距离时,直接通过"天猫精灵"唤醒词下指令也是最拟人化的体验,未来,天猫精灵还将利用声纹识别技术来辨别声音来源的方向、位置,让语音唤醒的反馈更精准。虽然真实生活场景中,还会受到人脸距离、光线等因素的影响,但AliGenie 5.0在人机交互上无疑已开始一段新的征程。

有了多模态识别的能力,经过一段时间的训练,未来人工智能助手能把人和声音及声音方向、手势动作都"对号入座",在一个家庭空间中,可以真正认识、分辨出每一位家庭成员,熟知每个人的生活习惯和喜好,并且在任一位置都能与家庭成员自然交流,它与理想中的未来智能助手的样子已越来越接近了。

许多科幻电影描绘的未来生活,人工智能化身成一个不折不扣的管家,不再是被动的接受命令,而是通过用户的私人喜好与定制化需求主动提供服务。这个过程的建立就是通过自然语言的交流实现的,之所以它看起来如此美好,正是因为自然交流对于人来说几乎没有学习成本。

家庭里的成员构成复杂多样,与机器的自然交流还意味着它可以让所有人无差别使用最新技术。语音对话、唇动唤醒、眼神手势交流融合的自然交互方式,意味着在技术层面,降低了人们触达前沿科技的门槛。

网购、移动支付、网约车、外卖,还有人人都离不开的健康码,技术让许多人生活变得越来越便利,但有的人却因为种种原因无法享受到,这不是人或者技术的错,在改变的过程中,技术需要辅助人们适应变化,而不是跟人对立起来,造成所谓的"淘汰"。

天猫精灵AliGenie 5.0将多模态唤醒的落地,其实就是做了一件看起来简单但伟大的事:用跟人一样打交道的模式,为更多人提供前沿科技带来的便利,让每个人无差别享受AI。

,
图文教程
相关文章
热门专题
推荐软件
奇热小说
奇热小说
下载
QQ2019手机版
QQ2019手机版
下载
王者荣耀
王者荣耀
下载
百度浏览器迷你版
百度浏览器迷你版
下载
2345浏览器手机版
2345浏览器手机版
下载
网易邮箱
网易邮箱
下载
爱奇艺
爱奇艺
下载
网易云音乐
网易云音乐
下载
WPSOffice
WPSOffice
下载
优酷
优酷
下载
谷歌浏览器(Chrome)
谷歌浏览器(Chrome)
下载
迅雷看看播放器
迅雷看看播放器
下载
UC浏览器
UC浏览器
下载
QQ音乐
QQ音乐
下载
阿里旺旺买家版v9.12.10C官方版
阿里旺旺买家版v9.12.10C官方版
下载
360安全卫士v12.1官方版
360安全卫士v12.1官方版
下载
猜你喜欢
USBFlashDriveTester(U盘质量检测大师)中文绿色版
USBFlashDriveTester(U盘质量检测大师)中文绿色版
下载
新街头篮球电脑版
新街头篮球电脑版
下载
Scrcpy投屏控制器v1.30
Scrcpy投屏控制器v1.30
下载
戒盟
戒盟
下载
小人淘汰赛
小人淘汰赛
下载
赢心斋
赢心斋
下载
WayOs授权程序5.0Beta
WayOs授权程序5.0Beta
下载
TEFviewMac版V2.78.2
TEFviewMac版V2.78.2
下载
模拟人生4多款式精致木质地板MOD
模拟人生4多款式精致木质地板MOD
下载
万缘记事本
万缘记事本
下载
西伯利亚v3耳机驱动v3.1官方版
西伯利亚v3耳机驱动v3.1官方版
下载
海南美食网
海南美食网
下载
猎妖满v版
猎妖满v版
下载
爱上苏果app
爱上苏果app
下载
暴走神魔坛
暴走神魔坛
下载
LED-ECS编辑控制系统5.4.0.24中文版
LED-ECS编辑控制系统5.4.0.24中文版
下载