摘要
本发明公开了一种故事情节驱动的口述影像生成方法及系统,其中的方法包括情节驱动的故事解译和基于大语言模型的文本生成两个关键部分。首先,通过情节驱动的故事解译进行视频特征的增强,该部分利用已知的情节要素来深度理解当前视频片段,并结合对相关历史情节的回溯,构建出既包含当前关键信息又与上下文逻辑一致的叙事基础。然后进入基于大语言模型的文本生成,部分接收故事解译阶段处理后的信息,并利用大型语言模型(LLM)强大的文本生成能力,生成符合情节内容、自然流畅且连贯的口述影像叙述文本,并可结合提示工程进行风格控制。本发明通过强化情节理解与优化叙事上下文,并利用大语言模型生成文本,显著提升了口述影像生成的质量。
技术关键词
影像生成方法
大语言模型
文本
视频
视觉
人物特征
事件特征
语义
影像生成系统
记忆
音频分类器
风格
多模态
处理器
时序
生成设备
图片
序列
存储装置
系统为您推荐了相关专利信息
会议纪要生成方法
任务分配信息
文本
大语言模型
资源分配信息
数据生成模型
平台子系统
客服
自然语言
生成结构化数据
动态决策树
决策方法
大语言模型
数据库故障
生成技术
语义信息处理
政务服务系统
多模态数据采集
信息输入设备
语义向量