一种用于合成视频的语音识别方法、系统及存储介质

正文

推荐专利

申请号：CN202510395651

申请日期：2025-03-31

公开号：CN120260544A

公开日期：2025-07-04

类型：发明专利

摘要

本发明涉及语音识别技术领域，具体公开了一种用于合成视频的语音识别方法，其先获取目标合成视频，并对目标合成视频进行多模态特征提取，得到多模态特征数据，然后根据多模态特征数据，建立多模态特征向量，之后根据多模态特征向量对目标合成视频内容进行领域识别，得到目标合成视频的内容领域分类数据，最后基于内容领域分类数据对目标合成视频进行语音识别，得到语音识别结果。相比于现有技术，发明通过对合成视频进行多模态特征提取的方式，识别出视频的专业领域，然后根据视频的具体领域优化语音识别以提高语音识别在特定专业领域下的准确性，解决了现有的语音识别技术在面对领域过于专业的合成视频时准确度不高的问题。

技术关键词

语音识别方法多模态特征合成视频内容图像特征提取指数语音识别技术像素神经网络模型纹理数据视频帧语音识别系统对象周期专业程序

系统为您推荐了相关专利信息

基于物联网技术的智慧园区能源管理系统

能源管理系统物联网技术时间段数据预测模型指标

一种基于脑电信号和肌松监测的术中病人麻醉状态评估系统

指数状态评估系统个性化特征电信号节点

一种基于多模态表示的实时多目标跟踪方法

轨迹融合多模态特征跟踪方法特征提取器数据

一种海上图像的智能标注方法、系统、电子设备及存储介质

智能标注方法 DBSCAN算法语义分割模型激光雷达点云数据无监督分类

一种基于环境光自适应与AI算法的视觉疲劳缓解方法

视觉眼球环境光传感器数据算法眼角皱纹

一种用于合成视频的语音识别方法、系统及存储介质

站点导航

APP 下载