视频解说生成方法和装置

正文

推荐专利

视频解说生成方法和装置

申请号：CN202411564962

申请日期：2024-11-04

公开号：CN119418702A

公开日期：2025-02-11

类型：发明专利

摘要

本申请实施例提供了一种视频解说生成方法，该视频解说生成方法包括：获取目标视频的音频及视觉信息；基于所述音频和预先训练好的自动语音识别模型，获取识别文本；将所述识别文本输入到预先训练好的语言模型中，以通过所述语言模型获取所述目标视频的解说文本；将所述视觉信息和所述解说文本输入到预先训练好的多模态模型中，以通过所述多模态模型获取所述目标视频的解说音频。本申请实施例的技术方案可以通过深度集成自动语音识别模型、语言模型和多模态模型，实现从视频到高质量解说音频的全自动化流程，适应各种复杂的解说场景，可以有效地结合不同模态的特征，如视觉和文本，合成更自然流畅且与视频内容高度匹配的解说音频，提升观众体验。

技术关键词

自动语音识别文本音频视觉特征声谱生成方法视频帧多模态主题语义可读存储介质计算机程序产品处理器通信生成装置标签指令

系统为您推荐了相关专利信息

一种基于AI大模型的市政工程巡检问答方法及系统

三元组问答方法问答对数据设施知识图谱架构

语音质量评估方法、装置、计算机设备、可读存储介质和程序产品

音频服务端时间服务器客户端语音

医学影像的自动病灶识别与分级方法

影像多尺度特征独立特征跨模态直方图匹配算法

管道缺陷识别方法、装置、存储介质及设备

管道缺陷识别方法谱图特征声学传感器深度学习模型时序特征

一种基于深度学习的OCR录入方法

手写体识别后处理模块多模态特征长短期记忆网络纠错模块

视频解说生成方法和装置

站点导航

APP 下载