视频处理方法、装置、计算机设备和存储介质

正文

推荐专利

申请号：CN202510871043

申请日期：2025-06-26

公开号：CN120583297A

公开日期：2025-09-02

类型：发明专利

摘要

本申请涉及一种视频处理方法、装置、计算机设备和存储介质。所述方法包括：对待处理视频对应的原始音频数据进行背景音和人声音分离后，针对分离出的人声音频数据进行台词特征提取得到带有台词时间戳的台词信息，根据台词时间戳将待处理视频分割为多个视频片段，并将原始音频数据分割为多个音频片段，综合每个视频片段的人脸识别结果以及每个视频片段对应的音频片段的音频识别结果来确定每个视频片段的说话对象。将背景音剔除可以提高说话对象的识别准确率，并结合音频、视频和台词文本三种模态信息来综合确定每个视频片段中的说话对象，可以大幅提升说话对象的检测准确率，以解决现有技术中针对视频数据进行说话对象检测的准确率较低的问题。

技术关键词

视频融合特征声纹特征智能模型对象人脸图像序列短时傅里叶变换数据发声计算机设备人脸身份识别声学特征标签音频特征提取语音识别模型文本

系统为您推荐了相关专利信息

一种目标录像的搜索方法、装置、设备、介质及产品

关键帧录像搜索方法对象人脸特征

基于抗量子安全的分布式身份管理与安全数据交换方法

数据交换方法身份量子数字签名生成共享密钥签名算法

基于轻量化Yolov8的6-Dof姿态估计方法

姿态估计方法关键点物体采样点网络

CAD软件融合Web应用方法

Web容器后台服务器双向通信交互动作控件

一种基于谈话视频的风险识别方法、装置、设备及介质

风险识别方法高斯混合模型视频图像音频

视频处理方法、装置、计算机设备和存储介质

站点导航

APP 下载