说话对象检测方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
说话对象检测方法、装置、电子设备及存储介质
申请号:CN202411831610
申请日期:2024-12-12
公开号:CN119810884B
公开日期:2025-10-31
类型:发明专利
摘要
本申请实施例提供了一种说话对象检测方法、装置、电子设备及存储介质,属于人工智能技术领域。其中方法包括:获取会话场景的视频数据和音频数据;根据视频数据获取人脸框序列,并在人脸框序列中提取唇部框序列;根据深度估计模型生成与人脸框序列对应的深度信息序列,并根据音频数据获取与人脸框序列对应的音频序列;根据音频序列和唇部框序列分别获取音频嵌入特征和视频嵌入特征;将深度信息序列分别与音频嵌入特征和视频嵌入特征进行加权融合,根据获得的深度融合音频特征和深度融合视频特征确定会话场景下的目标说话对象。通过所提供的方案,可自动定位会话视频中的说话对象,提高了工作效率,并减少了工作量。
技术关键词
嵌入特征 对象检测方法 序列 视频 音频特征 人脸检测算法 会话 脸部关键点 深度图 深度值 场景 数据 对象检测装置 传输模块 坐标 电子设备
系统为您推荐了相关专利信息
1
市政建设的智能污水检测方法及系统
污水检测方法 污水管网 数据 光谱特征提取 识别标签
2
一种基于自适应模糊聚类的水质评估方法及系统
水质评估方法 深度学习神经网络 参数 聚类算法 模糊数学
3
多模态模型的训练方法、视觉问答任务的处理方法及设备
细粒度特征 文本 跨模态 数据 视觉
4
一种基于目标跟踪的行为异常分析方法及系统
异常分析方法 作业场景 拍摄工具 追踪算法 视频
5
一种基于大语言模型的问答任务处理方法和装置
文本 大语言模型 Softmax函数 编码向量 生成文档
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号