摘要
本发明公开了一种面向第一人称视角的交互说话人检测方法,用于从第一人称视角识别与摄像佩戴者互动的说话人。首先,通过对输入的第一人称视频流进行预处理,提取头部裁剪、嘴唇裁剪及音频信号。然后,采用视觉说话人目标识别模块分析头部方向和嘴唇运动特征,并行共享权重音频编码器从干净及混合音频中提取鲁棒音频特征,同时通过视觉模态缺失感知模块动态评估视觉模态的可用性,调整对多模态特征的依赖;最后,经过多模态特征融合模块,综合分析视觉与音频信息,生成“是否对摄像佩戴者讲话”的分类结果。本发明通过对真实场景的考虑和模块设计,在复杂场景下具有显著的鲁棒性和精确性,可有效解决视觉模态缺失和背景噪声干扰问题。
技术关键词
人检测方法
音频编码器
视觉
音频特征
视角
图像块特征
多模态特征融合
运动特征
注意力
语音
编码图像块
数据
嵌入特征
矩阵
识别模块
头部特征
Softmax函数
系统为您推荐了相关专利信息
耦合神经网络
图像分割方法
显著性检测算法
显著性检测方法
颜色