一种面向第一人称视角的交互说话人检测方法

正文

推荐专利

申请号：CN202510136512

申请日期：2025-02-07

公开号：CN120183011A

公开日期：2025-06-20

类型：发明专利

摘要

本发明公开了一种面向第一人称视角的交互说话人检测方法，用于从第一人称视角识别与摄像佩戴者互动的说话人。首先，通过对输入的第一人称视频流进行预处理，提取头部裁剪、嘴唇裁剪及音频信号。然后，采用视觉说话人目标识别模块分析头部方向和嘴唇运动特征，并行共享权重音频编码器从干净及混合音频中提取鲁棒音频特征，同时通过视觉模态缺失感知模块动态评估视觉模态的可用性，调整对多模态特征的依赖；最后，经过多模态特征融合模块，综合分析视觉与音频信息，生成“是否对摄像佩戴者讲话”的分类结果。本发明通过对真实场景的考虑和模块设计，在复杂场景下具有显著的鲁棒性和精确性，可有效解决视觉模态缺失和背景噪声干扰问题。

技术关键词

人检测方法音频编码器视觉音频特征视角图像块特征多模态特征融合运动特征注意力语音编码图像块数据嵌入特征矩阵识别模块头部特征 Softmax函数

系统为您推荐了相关专利信息

一种基于视觉语言大模型的可解释视频眼动预测方法

解码器文本视觉特征归因预测模型训练

一种基于显著性融合的简化连续耦合神经网络的图像分割方法

耦合神经网络图像分割方法显著性检测算法显著性检测方法颜色

基于模糊信息熵的复杂航天器系统可信评估和决策方法

航天器系统三角模糊数决策方法信息熵策略

界面元素的定位方法及装置

元素界面卷积神经网络模型基准图像

一种多模态大模型指导的监管指令图像生成方法及设备

图像生成方法指令多模态迭代学习模型语义

一种面向第一人称视角的交互说话人检测方法

站点导航

APP 下载