音视频数据处理方法

AITNT
正文
推荐专利
音视频数据处理方法
申请号:CN202411032099
申请日期:2024-07-29
公开号:CN119049473A
公开日期:2024-11-29
类型:发明专利
摘要
本申请公开了一种音视频数据处理方法,该方法包括:获取音视频数据,音视频数据包括目标音频数据和多个目标视频帧;将多个目标视频帧输入预先训练的唇语识别模型中进行识别,得到第一文本识别结果,以及将目标音频数据输入预先训练的语音识别模型中进行识别,得到第二文本识别结果;在第一文本识别结果和第二文本识别结果的语义相似度低于预设相似度阈值的情况下,在预先构建的文本数据库中分别查找与第一文本识别结果相似度最高的第一参考文本以及与第二文本识别结果相似度最高的第二参考文本;根据第一参考文本和第二参考文本,确定音视频数据对应的目标文本。根据本申请实施例,能够提高最终文本转换结果的准确性。
技术关键词
文本识别 神经网络模型 语音识别模型 视频帧 人脸数据库 音视频 图像 训练样本集 矩阵 音频 运动特征 特征值 标签 序列 语义
系统为您推荐了相关专利信息
1
一种垃圾焚烧炉燃烧炉排整体运动的控制方法、系统和设备
炉膛火焰图像 垃圾焚烧炉炉排 神经网络模型训练 数据 控制系统
2
用于风力发电机组的运行状态风险评估方法及系统
风险评估模型 神经网络模型构建 风险评估方法 参数 风力发电机组故障
3
一种高可靠行星齿轮箱故障诊断方法、系统、介质及设备
非线性特征提取 行星齿轮箱 Softmax函数 频域特征 随机森林
4
一种亲水性聚苯乙烯标准微球制备方法
气溶胶发生器 微球 气溶胶扩散干燥管 定量方法 动物呼吸道
5
一种二手物品查验方法及电子设备
深度学习神经网络模型 多角度 查验方法 开箱 特征提取能力
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号