摘要
本申请实施例提供了一种说话对象检测方法、装置、电子设备及存储介质,属于人工智能技术领域。其中方法包括:获取会话场景的视频数据和音频数据;根据视频数据获取人脸框序列,并在人脸框序列中提取唇部框序列;根据深度估计模型生成与人脸框序列对应的深度信息序列,并根据音频数据获取与人脸框序列对应的音频序列;根据音频序列和唇部框序列分别获取音频嵌入特征和视频嵌入特征;将深度信息序列分别与音频嵌入特征和视频嵌入特征进行加权融合,根据获得的深度融合音频特征和深度融合视频特征确定会话场景下的目标说话对象。通过所提供的方案,可自动定位会话视频中的说话对象,提高了工作效率,并减少了工作量。
技术关键词
嵌入特征
对象检测方法
序列
视频
音频特征
人脸检测算法
会话
脸部关键点
深度图
深度值
场景
数据
对象检测装置
传输模块
坐标
电子设备
系统为您推荐了相关专利信息
污水检测方法
污水管网
数据
光谱特征提取
识别标签
水质评估方法
深度学习神经网络
参数
聚类算法
模糊数学
文本
大语言模型
Softmax函数
编码向量
生成文档