2024年5月11日-16日,CHI 2024在夏威夷召开,清华大学人机交互实验室5篇论文被收录。
CHI(The ACM CHI conference on Human Factors in Computing Systems)是人机交互领域顶级国际会议之一,长期以来被中国计算机学会(CCF)推荐为A类国际学术会议。会议由ACM主办,在国际上享有盛誉并具有广泛的学术影响力,是人机交互顶尖学者每年一度的学术盛宴。
本文将介绍五篇论文成果。其中,MouseRing荣获了Honorable Mention Award,这项研究通过构建动作感知的物理约束,显著提高了循环神经网络在预测手指位置方面的精确度,从而实现在任意物理平面上的手指滑动输入,逼近触控板的操作体验。
另外四篇论文均围绕大模型展开,通过融合领域先验知识与Multi-Agent系统的自主学习能力创新实现了多个应用系统。这些论文分别探索了用户心理干预、情境式绘画创作以及具身智能动捕系统等领域,充分展现了人机交互与大模型结合的巨大潜力,也为未来的智能人机交互系统发展提供了新的方向和灵感。
论文题目:MouseRing: Always-available Touchpad Interaction with IMU Rings
论文简介:由于传感能力受限,利用惯性测量单元(IMU)感知细微的手部运动以实现连续输入面临挑战。我们的研究发现,通过利用手指运动过程中手部关节、关键点之间的结构与运动关系,能够为传感算法提供额外物理知识,从而将先验信息整合到机器学习模型中,以提高运动感知的准确性。我们的论文提出了MouseRing,一种基于IMU智能指环的输入技术,实现了在任意物理平面上类似触控板的手指滑动输入。论文中,我们首先使用摄像头阵列、触摸板和IMU指环构建了手部运动数据集。基于数据,我们提出了若干有利于动作感知的物理约束,如关节共面性、刚性约束和速度一致性。这些约束能有效改进从循环神经网络中预测手指跟踪的结果。最后,传感系统将指尖与平面的接触状态作为光标移动的开关,实现了精确的光标控制。在费茨定律实验中,MouseRing展示了与触摸板接近的输入效率。在实际场景中,MouseRing能够在各种表面上和身体姿势下保持稳定、高效的输入效率及良好的用户体验。
论文作者:沈习远,喻纯,王煦彤,梁宸,陈浩展,史元春
原文链接:https://doi.org/10.1145/3613904.3642225
第一作者:沈习远,现为清华大学计算机科学与技术系人机交互与普适计算实验室硕士研究生,导师是喻纯副教授,研究方向是新型传感技术和可穿戴设备,旨在通过人体运动建模、多模态融合等方法,实现低成本传感器对用户动作的准确识别。2024年秋将前往华盛顿大学计算机学院攻读博士。
论文题目:MindShift: Leveraging Large Language Models for Mental-States-Based Problematic Smartphone Use Intervention
论文简介:问题性使用手机会对身心健康产生负面影响。现有的手机干预技术(如可视化使用时间、强制锁定等)难以兼顾干预有效性和手机可用性,且忽略了用户心理状态这一因素,无法根据用户的物理环境和心理状态进行动态及个性化干预。本工作首先进行了一项WoZ研究(N=12)和一项访谈研究(N=10),总结了问题性使用手机背后的心理状态:无聊、压力和惯性。基于这些发现及双系统和 ERG 理论,设计了四种说服策略:理解、安慰、诉诸价值观和脚手架习惯。利用大语言模型的能力,本工作设计了 MindShift,一种新颖的手机干预技术,将用户当前的应用使用行为、物理环境、心理状态、目标和习惯作为输入,利用设计的说服策略,自动生成合适、个性化和动态的说服内容。接着,本工作进行了为期 5 周的用户实验(N=25),将MindShift 与其简化版本(移除心理状态和说服策略)和基 线技术(固定弹窗提醒)进行比较。结果显示,MindShift 显著提高了干预接受率 4.7-22.5%,并减少了智能手机使用时长 7.4-9.8%。此外,使用 MindShift 后,用户在智能手机成瘾量表得分上有显著下降,在自我效能量表得分上有显著上升。本工作揭示了在行为改变领域中利用大语言模型进行基于情境和心理状态的说服的潜力。
论文作者:吴若兰,喻纯,潘小乐,刘雨佳,张宁宁,符樾,王宇涵,郑智,陈理,蒋俏蕾,徐栩海,史元春
原文链接:https://doi.org/10.1145/3613904.3642790
第一作者:吴若兰,清华大学计算机系硕士生,导师喻纯副教授。研究方向为人机交互,研究兴趣为数字健康、智能交互。
论文题目:ContextCam:Bridging Context Awareness with Creative Human-AI Image Co-Creation
论文简介:人工智能生成内容(AIGC)的快速发展显著改变着人类生活的各个方面。本文特别关注AIGC革新图像创作(如摄影和自我表达)的潜力。我们介绍了ContextCam,一种将情境感知与主流AIGC技术(如Stable Diffusion)相结合的新型人机图像共创系统。ContextCam通过提取相关的情境数据为用户的图像创作过程提供灵感,并利用基于大型语言模型(LLM)的多智能体与用户共同创建图像。对16名参与者和136个场景进行的研究显示,ContextCam展示了个性化和多样化的输出,以及有趣的用户行为模式。参与者在使用ContextCam时提供了积极的反馈,有很强的参与感,并承认其激发创造力的能力。
论文作者:范娴喆,武子涵,喻纯,饶冯桂,石伟男*,涂腾
原文链接:https://xianzhefan.github.io/files/chi24-240.pdf
第一作者:范娴喆,清华大学钱学森工程卓越计划(TEEP)的大三本科生。研究兴趣是人机交互,致力于开发系统以重新塑造用户与AIGC的协作方式与评估AIGC的方式,并揭示有趣的见解。特别关注以下主题:人工智能与人类的协作,创意支持系统,信任和可解释的人工智能。
论文题目:PepperPose: Full-Body Pose Estimation with a Companion Robot
原文链接:https://ridiculousronzzz.github.io/files/chi24-240.pdf
第一作者:王重阳博士,现为清华大学计算机系普适计算教育部重点实验室博士后研究员,清华大学水木学者,入选国家博士后海外交流计划引进项目。博士毕业于伦敦大学学院(UCL)。他的研究方向是普适计算驱动的交互式智慧医疗,以及基于移动式多模态机器人的交互式具身智能。他以第一作者/共同第一作者身份在普适计算、人机交互、人工智能顶级会议(CHI-24、Ubicomp-21/24、AAAI-23、IJCAI-22)上发表了多篇论文。
学生一作,郑思齐,现为清华大学致理书院2021级本科生。她目前感兴趣的研究方向为人机交互、普适计算、机器人结合下的创新工作,目前以学生一作和共同作者身份在人机交互和普适计算顶级会议CHI-24和Ubicomp-24上发表了论文。
论文题目:Time2Stop: Adaptive and Explainable Human-AI Loop for Smartphone Overuse Intervention
论文简介:尽管研究智能手机过度使用干预技术的历史悠久,但缺乏基于人工智能的即时自适应干预(JITAI)方法来减少过度使用。我们开发了Time2Stop,这是一个智能的、自适应的、可解释的JITAI系统,它利用机器学习来识别最佳干预措施,引入具有透明人工智能解释的干预措施,并收集用户反馈以建立人类-人工智能回路,并随着时间的推移适应干预模型。我们进行了为期8周的实地实验(N=71),以评估Time2Stop在适应和解释方面的有效性。我们的研究结果表明,我们的自适应模型在干预准确性(>32.8%)和可接受性(>8.0%)方面明显优于基线方法。此外,结合解释进一步提高了准确性和可接受性,分别提高了53.8%和11.4%。此外,Time2Stop显著减少了过度使用,将应用程序访问频率降低了7.0~8.9%。我们的主观数据也与这些量化措施相呼应。参与者更喜欢适应性干预,并对干预时间的准确性、有效性和信任水平给予了很高的评价。我们设想我们的工作可以激发JITAI系统的未来研究,使该系统具有人类-人工智能回路,与用户一起进化。
论文作者:Adiba Orzikulova, Han Xiao, Zhipeng Li, Yukang Yan, Yuntao Wang, Yuanchun Shi, Marzyeh Ghassemi, Sung-Ju Lee, Anind K. Dey, and Xuhai Xu
原文链接:https://arxiv.org/pdf/2403.05584