English
当前您的位置: 当前位置: 首页 > 新闻动态 > 正文

我们殷亚凤老师课题组在人体动作识别与理解领域取得新进展

发布日期:2023-07-25 浏览量:

我们殷亚凤老师课题组近期在人体动作识别与理解领域取得新进展:提出了一种基于声波感知与自蒸馏的唇语识别技术用于无声语音交互,提出了一种基于对比学习的手语识别与翻译技术辅助聋人沟通。

1. Acoustic-Based Lip Reading for Mobile Devices: Dataset, Benchmark and a Self Distillation-Based Approach.语音是人与人之间一种自然的交流方式,也是人机交互的一种良好方式。然而,可听见的语音常常面临以下问题:受周围噪音影响,打破安静环境,泄露隐私等。因此,无声语音交互技术被提出,尤其是基于唇语识别的无声语音交互技术。为了实现唇语识别,该研究工作利用从移动设备产生的不可听声学信号,用于感知和识别唇部动作。首先,鉴于现有的唇语识别研究中缺乏公开数据集,该工作提出并发布了一个大规模的单词级别的唇语数据集LIPCMD,其中包含30000个基于声学的唇语样本。其次,为了推进唇语识别技术的进一步发展,该工作在LIPCMD数据集上提供了基准评估。然后,为了将弱声学信号识别为单词,该工作提出了一种基于自蒸馏的方法LipReader,通过在卷积神经网络中蒸馏概率分布和注意力图以提高唇语识别/分类的性能。最后,该工作将LipReader实现在智能手机上,并在LIPCMD数据集以及复杂场景下评估自蒸馏唇语识别技术的有效性。该项研究工作已被IEEE Transactions on Mobile Computing(CCF-A类期刊)录用。欢迎对该研究工作感兴趣的学术同行来信交流:yafeng@nju.edu.cn

2. Contrastive Learning for Sign Language Recognition and Translation.当前的端到端手语处理架构中存在两个普遍的问题:一是连续手语识别(Continuous Sign Language Recognition,CSLR)中的CTC尖峰现象,削弱了视觉表征能力;另一个是手语翻译(Sign Language Translation,SLT)推理过程中存在的暴露偏差问题,导致翻译错误的累积。该工作通过引入对比学习来缓解这些问题,旨在增强视觉层面的特征表示能力和语义层面的误差容忍度。具体而言,为了减轻CTC尖峰现象并增强视觉层面的特征表示能力,该工作设计了一种视觉对比损失,通过最小化同一手语视频中不同增强帧之间的视觉特征距离,使模型能够通过无监督的方式利用大量未标记帧进一步增强特征表示。为了减轻暴露偏差问题并提高语义层面的误差容忍度,该工作设计了一种语义对比损失,通过将预测的句子重新输入语义模块,并比较真实序列和预测序列的特征,从而在训练阶段暴露翻译模型可能存在的错误,提高测试阶段模型对暴露偏差的容忍性。最后,该工作在公开数据集上通过大量实验评估所提出方法的有效性。该项研究工作已被The 32nd International Joint Conference on Artificial Intelligence (IJCAI 2023)(CCF-A类会议)录用。欢迎对该研究工作感兴趣的学术同行来信交流:yafeng@nju.edu.cn

苏州校区

地址:苏州市太湖大道 1520 号

邮编:215163    邮箱:ise@nju.edu.cn

版权所有:必威(betway·西汉姆联)官方网站-Global PlatformCopyright © All Rights Reserverd

网站制作:必威西汉姆联官网