为了挽救Vision Pro,苹果又出招了。日前有消息源曝光了他们获批的一个新专利,显示其未来的头戴式设备将支持读取唇语,所以用户无需发出声音,就可通过读取唇部动作来接收命令。
在这份名为“带有语音输入结构的电子设备”专利相关文件中,苹果描述了在佩戴者无法说话的场景下,通过内置的视觉传感器读取唇语以实现语音输入。如果这个专利真的能落地,或将对目前一切头戴设备都有着巨大的积极作用。
就在小米和阿里先后下场之后,这一轮AI眼镜热潮已经到来。然而在烈火烹油的局面下,这类产品其实也面临着不小的危机。根据VR Vision的统计,仅仅在抖音电商,AI眼镜的平均退货水平就达到了40%-50%。而在网友们将其列为“吃灰神器”的一众原因里,除了元器件变多会增加佩戴负担外,语音交互则是另一个被集中反馈的痛点。
对于智能音箱这类使用场景基本集中在家庭环境的设备,它与语音交互可以说是天作之合,但AI眼镜、XR头显则截然不同,毕竟后者在使用时会有相当一部分是公共场合。
诚然,在AI大模型相关技术跨越式发展的当下,这类智能设备都拥有了不错的语义识别能力,能够理解用户语句背后的含义,再辅以降噪引擎,可以在各种各样的声音中分辨所需要的语音流,从而精准识别来自佩戴者的指令。
尽管拾音和语义理解都不是问题,但真正的痛点就在于,不是所有人都能克服在大庭广众之下对着空气说话带来的羞耻感。再加上由于公共场合的声音环境更加复杂,所以即便降噪技术再先进,也需要用户用更高的音量来操控设备。可是在公共场合高声喧哗,显然就与公序良俗相背。再加上语音交互就需要用一定音量说出需求,但不少人并不希望自己的隐私被暴露。
十年前,马化腾在谈及腾讯没有做语音助手时就曾表示,“我们没有作为重点去做,这个功能看起来方便,其实未必,比如一个人对着手机说我要去干嘛干嘛,好傻,人一多我都不好意思这么说,而且也不私密,宁可多按几下。”
要知道支持拍摄功能的AI眼镜本身就存在巨大的隐私争议,因为不是所有人都能接受活在镜头下。再加上AI眼镜普遍以语音交互为核心,就会给用户在公共场合使用带来巨大的心理负担。此外,音频的信息量要远大于图文,但信息量大并不总是一件好事,因为用户分析和筛选需要花费更多的时间,并且听觉相对视觉在上下文联想方面对于人脑更不友好,这就会使得用户在用语音交互时需要耗费更多的精力。
那么问题就来了,难道AI眼镜、XR头显的厂商不知道语音交互的缺陷吗?其实答案是语音交互已经是当下最有性价比的解决方案了。但语音交互的一大痛点就是用户必须要发出声音,可要强化ASR(语音识别)、NLP自然语义处理、远场拾音,并捕捉用户压低声音说话的声纹,成本就必然会大幅度提升,进而又会导致潜在受众群体变少。可如果降低成本,大声说话带来的社交压力又客观存在。
在语音交互之前,智能眼镜类产品的主要交互方式是镜腿触控模式。可是在眼镜腿上进行交互并不符合人体工学,其缺陷在于需要将手举到头部与眼镜对齐,但频繁举手就会让人感到疲劳。而TWS耳机能用触控交互的原因,是用户并不会频繁调整音量或者开启降噪,所以低频场景的触控操作反而可行。
在触控交互不适合头戴设备,语音交互有缺陷的情况下,苹果这一识别唇语的无声输入模式就有望成为一个两全其美的解决方案。用户无需发出声音,读取唇部动作来接收命令的方式,就解决了用户在公共场合与设备交互带来的一系列痛点。更何况识别唇语如今也不是什么黑科技,只需搭配一个成熟的AI视觉模型就可解决。
通过向AI模型灌输不同语言的用户说话时的唇部动作,在经过充分的预训练后,就能够让搭载了AI模型的设备知道用户到底在说什么。只要解决识别率的问题,AI眼镜、XR头显被广泛应用于公共场合的最大一块绊脚石,就可能会被搬开。
一旦用户能够毫无顾忌地使用AI眼镜、XR头显,这类产品也就有了从小众尝鲜群体专属变为大众化消费电子产品的契机。