摘要
本申请实施例提供了一种视频解说生成方法,该视频解说生成方法包括:获取目标视频的音频及视觉信息;基于所述音频和预先训练好的自动语音识别模型,获取识别文本;将所述识别文本输入到预先训练好的语言模型中,以通过所述语言模型获取所述目标视频的解说文本;将所述视觉信息和所述解说文本输入到预先训练好的多模态模型中,以通过所述多模态模型获取所述目标视频的解说音频。本申请实施例的技术方案可以通过深度集成自动语音识别模型、语言模型和多模态模型,实现从视频到高质量解说音频的全自动化流程,适应各种复杂的解说场景,可以有效地结合不同模态的特征,如视觉和文本,合成更自然流畅且与视频内容高度匹配的解说音频,提升观众体验。
技术关键词
自动语音识别
文本
音频
视觉特征
声谱
生成方法
视频帧
多模态
主题
语义
可读存储介质
计算机程序产品
处理器通信
生成装置
标签
指令
系统为您推荐了相关专利信息
影像
多尺度特征
独立特征
跨模态
直方图匹配算法
管道缺陷识别方法
谱图特征
声学传感器
深度学习模型
时序特征
手写体识别
后处理模块
多模态特征
长短期记忆网络
纠错模块