一种用于合成视频的语音识别方法、系统及存储介质

AITNT
正文
推荐专利
一种用于合成视频的语音识别方法、系统及存储介质
申请号:CN202510395651
申请日期:2025-03-31
公开号:CN120260544A
公开日期:2025-07-04
类型:发明专利
摘要
本发明涉及语音识别技术领域,具体公开了一种用于合成视频的语音识别方法,其先获取目标合成视频,并对目标合成视频进行多模态特征提取,得到多模态特征数据,然后根据多模态特征数据,建立多模态特征向量,之后根据多模态特征向量对目标合成视频内容进行领域识别,得到目标合成视频的内容领域分类数据,最后基于内容领域分类数据对目标合成视频进行语音识别,得到语音识别结果。相比于现有技术,发明通过对合成视频进行多模态特征提取的方式,识别出视频的专业领域,然后根据视频的具体领域优化语音识别以提高语音识别在特定专业领域下的准确性,解决了现有的语音识别技术在面对领域过于专业的合成视频时准确度不高的问题。
技术关键词
语音识别方法 多模态特征 合成视频内容 图像特征提取 指数 语音识别技术 像素 神经网络模型 纹理 数据 视频帧 语音识别系统 对象 周期 专业 程序
系统为您推荐了相关专利信息
1
基于物联网技术的智慧园区能源管理系统
能源管理系统 物联网技术 时间段 数据预测模型 指标
2
一种基于脑电信号和肌松监测的术中病人麻醉状态评估系统
指数 状态评估系统 个性化特征 电信号 节点
3
一种基于多模态表示的实时多目标跟踪方法
轨迹 融合多模态特征 跟踪方法 特征提取器 数据
4
一种海上图像的智能标注方法、系统、电子设备及存储介质
智能标注方法 DBSCAN算法 语义分割模型 激光雷达点云数据 无监督分类
5
一种基于环境光自适应与AI算法的视觉疲劳缓解方法
视觉 眼球 环境光传感器数据 算法 眼角皱纹
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号