一种面向第一人称视角的交互说话人检测方法

AITNT
正文
推荐专利
一种面向第一人称视角的交互说话人检测方法
申请号:CN202510136512
申请日期:2025-02-07
公开号:CN120183011A
公开日期:2025-06-20
类型:发明专利
摘要
本发明公开了一种面向第一人称视角的交互说话人检测方法,用于从第一人称视角识别与摄像佩戴者互动的说话人。首先,通过对输入的第一人称视频流进行预处理,提取头部裁剪、嘴唇裁剪及音频信号。然后,采用视觉说话人目标识别模块分析头部方向和嘴唇运动特征,并行共享权重音频编码器从干净及混合音频中提取鲁棒音频特征,同时通过视觉模态缺失感知模块动态评估视觉模态的可用性,调整对多模态特征的依赖;最后,经过多模态特征融合模块,综合分析视觉与音频信息,生成“是否对摄像佩戴者讲话”的分类结果。本发明通过对真实场景的考虑和模块设计,在复杂场景下具有显著的鲁棒性和精确性,可有效解决视觉模态缺失和背景噪声干扰问题。
技术关键词
人检测方法 音频编码器 视觉 音频特征 视角 图像块特征 多模态特征融合 运动特征 注意力 语音 编码图像块 数据 嵌入特征 矩阵 识别模块 头部特征 Softmax函数
系统为您推荐了相关专利信息
1
一种基于视觉语言大模型的可解释视频眼动预测方法
解码器 文本 视觉特征 归因 预测模型训练
2
一种基于显著性融合的简化连续耦合神经网络的图像分割方法
耦合神经网络 图像分割方法 显著性检测算法 显著性检测方法 颜色
3
基于模糊信息熵的复杂航天器系统可信评估和决策方法
航天器系统 三角模糊数 决策方法 信息熵 策略
4
界面元素的定位方法及装置
元素 界面 卷积神经网络模型 基准 图像
5
一种多模态大模型指导的监管指令图像生成方法及设备
图像生成方法 指令 多模态 迭代学习模型 语义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号