说话对象检测方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202411831610

申请日期：2024-12-12

公开号：CN119810884B

公开日期：2025-10-31

类型：发明专利

摘要

本申请实施例提供了一种说话对象检测方法、装置、电子设备及存储介质，属于人工智能技术领域。其中方法包括：获取会话场景的视频数据和音频数据；根据视频数据获取人脸框序列，并在人脸框序列中提取唇部框序列；根据深度估计模型生成与人脸框序列对应的深度信息序列，并根据音频数据获取与人脸框序列对应的音频序列；根据音频序列和唇部框序列分别获取音频嵌入特征和视频嵌入特征；将深度信息序列分别与音频嵌入特征和视频嵌入特征进行加权融合，根据获得的深度融合音频特征和深度融合视频特征确定会话场景下的目标说话对象。通过所提供的方案，可自动定位会话视频中的说话对象，提高了工作效率，并减少了工作量。

技术关键词

嵌入特征对象检测方法序列视频音频特征人脸检测算法会话脸部关键点深度图深度值场景数据对象检测装置传输模块坐标电子设备

系统为您推荐了相关专利信息

市政建设的智能污水检测方法及系统

污水检测方法污水管网数据光谱特征提取识别标签

一种基于自适应模糊聚类的水质评估方法及系统

水质评估方法深度学习神经网络参数聚类算法模糊数学

多模态模型的训练方法、视觉问答任务的处理方法及设备

细粒度特征文本跨模态数据视觉

一种基于目标跟踪的行为异常分析方法及系统

异常分析方法作业场景拍摄工具追踪算法视频

一种基于大语言模型的问答任务处理方法和装置

文本大语言模型 Softmax函数编码向量生成文档

说话对象检测方法、装置、电子设备及存储介质

站点导航

APP 下载