跳至内容

人机交互实验室成果获得CHI 2023荣誉论文奖

清华大学人机交互实验室研究成果“Enabling Voice-Accompanying Hand-to-Face Gesture Recognition with Cross-Device Sensing”于2023年4月获得CCFA类国际会议CHI 2023荣誉论文奖。

语音交互是耳机、智能手表等可穿戴设备上的一种自然、全时的交互方式。受限于语音中模态信息的隐含性和自然语言理解技术,语音交互中的模态控制(例如唤醒状态)仍然是一个具有挑战性的问题。用户需重复唤醒词以主动切换模态或目标设备,这给交互带来了额外的负担。

在本文中,我们研究了伴随语音的面部手势(VAHF, Voice-Accompanying Hand-to-Face Gesture)作为平行输入信道增强传统语音交互的可能性。我们选取面部手势作为研究对象,因为面部手势通常被认为与语音交互密切相关,且更容易产生可感知的声学特征(例如,“捂嘴”会改变人声的频响分布;“手竖在嘴巴一侧”会阻挡声音传播,造成左右响度差异)。

为了研究不同面部手势的可用性,我们首先邀请12名用户进行头脑风暴实验,提出一个可用于语音交互的面部手势全集;随后我们从手势的结构性、消歧性等维度对上述手势全集进行分析,选取8个代表性VAHF手势作为我们的目标手势集。在传感方案上,我们创新地提出了一种跨设备(降噪耳机、手表、智能指环等商用设备)、多通道(人声、超声、惯性)手势动作识别模型。我们的模型在8个VAHF手势9分类(包括空类)的数据集上取得了91.5%的准确率,在只包含3个动作的精简数据集中取得了97.3%的准确率,展现了VAHF手势较好的可用性与可扩展能力。

最后,我们在论文中讨论了基于VAHF手势的语音交互设计,包括通过更灵活的语音交互触发与打断流程设计、快捷键绑定、视觉信息指向性绑定等。我们希望,我们的工作可以促进以手势与身体动作等副语言信息作为平行信道的更智能的语音交互。