摘要
本申请公开了一种音视频数据处理方法,该方法包括:获取音视频数据,音视频数据包括目标音频数据和多个目标视频帧;将多个目标视频帧输入预先训练的唇语识别模型中进行识别,得到第一文本识别结果,以及将目标音频数据输入预先训练的语音识别模型中进行识别,得到第二文本识别结果;在第一文本识别结果和第二文本识别结果的语义相似度低于预设相似度阈值的情况下,在预先构建的文本数据库中分别查找与第一文本识别结果相似度最高的第一参考文本以及与第二文本识别结果相似度最高的第二参考文本;根据第一参考文本和第二参考文本,确定音视频数据对应的目标文本。根据本申请实施例,能够提高最终文本转换结果的准确性。
技术关键词
文本识别
神经网络模型
语音识别模型
视频帧
人脸数据库
音视频
图像
训练样本集
矩阵
音频
运动特征
特征值
标签
序列
语义
系统为您推荐了相关专利信息
炉膛火焰图像
垃圾焚烧炉炉排
神经网络模型训练
数据
控制系统
风险评估模型
神经网络模型构建
风险评估方法
参数
风力发电机组故障
非线性特征提取
行星齿轮箱
Softmax函数
频域特征
随机森林
气溶胶发生器
微球
气溶胶扩散干燥管
定量方法
动物呼吸道
深度学习神经网络模型
多角度
查验方法
开箱
特征提取能力