音视频数据处理方法

正文

推荐专利

音视频数据处理方法

申请号：CN202411032099

申请日期：2024-07-29

公开号：CN119049473A

公开日期：2024-11-29

类型：发明专利

摘要

本申请公开了一种音视频数据处理方法，该方法包括：获取音视频数据，音视频数据包括目标音频数据和多个目标视频帧；将多个目标视频帧输入预先训练的唇语识别模型中进行识别，得到第一文本识别结果，以及将目标音频数据输入预先训练的语音识别模型中进行识别，得到第二文本识别结果；在第一文本识别结果和第二文本识别结果的语义相似度低于预设相似度阈值的情况下，在预先构建的文本数据库中分别查找与第一文本识别结果相似度最高的第一参考文本以及与第二文本识别结果相似度最高的第二参考文本；根据第一参考文本和第二参考文本，确定音视频数据对应的目标文本。根据本申请实施例，能够提高最终文本转换结果的准确性。

技术关键词

文本识别神经网络模型语音识别模型视频帧人脸数据库音视频图像训练样本集矩阵音频运动特征特征值标签序列语义

系统为您推荐了相关专利信息

一种垃圾焚烧炉燃烧炉排整体运动的控制方法、系统和设备

炉膛火焰图像垃圾焚烧炉炉排神经网络模型训练数据控制系统

用于风力发电机组的运行状态风险评估方法及系统

风险评估模型神经网络模型构建风险评估方法参数风力发电机组故障

一种高可靠行星齿轮箱故障诊断方法、系统、介质及设备

非线性特征提取行星齿轮箱 Softmax函数频域特征随机森林

一种亲水性聚苯乙烯标准微球制备方法

气溶胶发生器微球气溶胶扩散干燥管定量方法动物呼吸道

一种二手物品查验方法及电子设备

深度学习神经网络模型多角度查验方法开箱特征提取能力

音视频数据处理方法

站点导航

APP 下载