摘要
本申请涉及一种视频处理方法、装置、计算机设备和存储介质。所述方法包括:对待处理视频对应的原始音频数据进行背景音和人声音分离后,针对分离出的人声音频数据进行台词特征提取得到带有台词时间戳的台词信息,根据台词时间戳将待处理视频分割为多个视频片段,并将原始音频数据分割为多个音频片段,综合每个视频片段的人脸识别结果以及每个视频片段对应的音频片段的音频识别结果来确定每个视频片段的说话对象。将背景音剔除可以提高说话对象的识别准确率,并结合音频、视频和台词文本三种模态信息来综合确定每个视频片段中的说话对象,可以大幅提升说话对象的检测准确率,以解决现有技术中针对视频数据进行说话对象检测的准确率较低的问题。
技术关键词
视频
融合特征
声纹特征
智能模型
对象
人脸图像序列
短时傅里叶变换
数据
发声
计算机设备
人脸身份识别
声学特征
标签
音频特征提取
语音识别模型
文本
系统为您推荐了相关专利信息
数据交换方法
身份
量子数字签名
生成共享密钥
签名算法