基于多模态大模型驱动的静默视频自动解说生成方法及系统

正文

推荐专利

申请号：CN202510811042

申请日期：2025-06-17

公开号：CN120916032A

公开日期：2025-11-07

类型：发明专利

摘要

本发明属于人工智能技术领域，公开了一种基于多模态大模型驱动的静默视频自动解说生成方法及系统，本发明通过将视频解说生成过程分解为多个功能模块(视频分割、提示词构建、视频理解、语音合成、视频融合等)，每个模块负责特定任务。这种模块化架构使得每个模块能够专注于自己的功能，优化了系统的性能和可维护性。同时，模块之间的协作保证了视频解说生成的高效性和准确性。系统通过提示词构建模块和视频理解模型的结合，能够基于视频内容精准生成解说词。特别是对解说词的字数和结构进行了严格控制，避免冗余和重复的解说，同时确保解说内容与视频内容高度契合。这一机制不仅提升了解说的专业性，还确保了音视频的流畅融合。

技术关键词

视频服务器集群系统语音多模态色彩直方图生成提示词生成方法动态时间规整算法模块文本负载均衡器电子装置场景人工智能技术处理器生成系统数据总线

系统为您推荐了相关专利信息

一种用于全景视频融合的镜头纠偏方法及系统

视频采集装置全景视频融合数字孪生模型纠偏方法视角

一种基于多模态的服务器故障预测方法、装置及设备

模态特征服务器多模态故障预测方法故障预测模型

车载式堤坝险情智能检测修复系统

检测修复系统堤坝远程控制服务器智能视觉识别白蚁巢穴

一种基于多模态数据的单木树冠分割深度学习方法

深度学习方法多模态森林结构 LiDAR点云卷积模块

基于检索增强的第一视角视频描述系统

视角视觉特征提取跨模态文本编码器视频编码器

基于多模态大模型驱动的静默视频自动解说生成方法及系统

站点导航

APP 下载