一篇论文被IMWUT录用
MMTSA: Multimodal Temporal Segment Attention Network for Efficient Human Activity Recognition (作者:Ziqi Gao*, Yuntao Wang*+, Jianguo Chen, Junliang Xing, Shwetak Patel, Xin Liu, Yuanchun Shi)被IMWUT录用。
摘要:多模态传感器为发展准确的人体活动识别(HAR)机器学习方法提供了互补信息,然而同时引入了显著的高计算负荷,导致效率降低。本文提出了一种高效的多模态神经架构,用于HAR,使用RGB摄像头和惯性测量单元(IMUs),名为多模态时间段注意网络(MMTSA)。MMTSA首先通过使用Gramian Angular Field(GAF)将IMU传感器数据转化为保留时间和结构的灰度图像,表征人体活动的内在属性。随后,MMTSA采用多模态稀疏采样方法以减少数据冗余。最后,MMTSA采用分段间注意模块以实现高效的多模态融合。通过使用三个经过充分验证的公共数据集,我们对MMTSA在HAR中的有效性和效率进行了评估。结果表明,我们的方法在性能方面取得了显著的改进(在MMAct数据集上的跨主体F1分数提高了11.13%),优于先前的最新方法。消融研究和分析表明,MMTSA在融合多模态数据以实现准确的HAR方面具有显著的效果。在边缘设备上的效率评估显示,与SOTA方法相比,MMTSA实现了显著更好的准确性、较低的计算负荷和较低的推理延迟。