视频解说生成方法和装置

AITNT
正文
推荐专利
视频解说生成方法和装置
申请号:CN202411564962
申请日期:2024-11-04
公开号:CN119418702A
公开日期:2025-02-11
类型:发明专利
摘要
本申请实施例提供了一种视频解说生成方法,该视频解说生成方法包括:获取目标视频的音频及视觉信息;基于所述音频和预先训练好的自动语音识别模型,获取识别文本;将所述识别文本输入到预先训练好的语言模型中,以通过所述语言模型获取所述目标视频的解说文本;将所述视觉信息和所述解说文本输入到预先训练好的多模态模型中,以通过所述多模态模型获取所述目标视频的解说音频。本申请实施例的技术方案可以通过深度集成自动语音识别模型、语言模型和多模态模型,实现从视频到高质量解说音频的全自动化流程,适应各种复杂的解说场景,可以有效地结合不同模态的特征,如视觉和文本,合成更自然流畅且与视频内容高度匹配的解说音频,提升观众体验。
技术关键词
自动语音识别 文本 音频 视觉特征 声谱 生成方法 视频帧 多模态 主题 语义 可读存储介质 计算机程序产品 处理器通信 生成装置 标签 指令
系统为您推荐了相关专利信息
1
一种基于AI大模型的市政工程巡检问答方法及系统
三元组 问答方法 问答对数据 设施 知识图谱架构
2
语音质量评估方法、装置、计算机设备、可读存储介质和程序产品
音频 服务端 时间服务器 客户端 语音
3
医学影像的自动病灶识别与分级方法
影像 多尺度特征 独立特征 跨模态 直方图匹配算法
4
管道缺陷识别方法、装置、存储介质及设备
管道缺陷识别方法 谱图特征 声学传感器 深度学习模型 时序特征
5
一种基于深度学习的OCR录入方法
手写体识别 后处理模块 多模态特征 长短期记忆网络 纠错模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号