一种基于大语言模型的视频合成方法、设备及介质

正文

推荐专利

申请号：CN202511140396

申请日期：2025-08-14

公开号：CN120769137A

公开日期：2025-10-10

类型：发明专利

摘要

本发明涉及一种基于大语言模型的视频合成方法、设备及介质，其中方法包括：获取用户输入信息，包括肖像图像、参考语音和内容参考信息；对输入信息进行多模态特征提取，得到多模态特征，包括肖像图像特征、参考语音特征和内容参考信息特征；将肖像图像特征输入基于深度学习构建的数字人模型，生成初始视频；将参考语音特征和内容参考信息特征输入预设的第一大语言模型，生成视频文案和分镜信息；基于多模态特征在本地视频素材库中进行匹配，得到匹配素材；将分镜信息和匹配素材输入第二大语言模型，生成视频内容时间表；基于视频内容时间表、初始视频和视频文案进行视频合成，输出最终合成视频。

技术关键词

大语言模型多模态特征语音特征生成视频内容三维网格模型微调方法图像融合特征时序视频编辑处理器多轨道注意力机制视频编码美学模板序列

系统为您推荐了相关专利信息

一种基于语言模型的中文敏感词检测与纠正方法

纠正方法汉字 BERT模型预训练语言模型文本

大语言模型结构化生成系统及方法

大语言模型状态机生成系统语法结构非暂态计算机可读介质

一种钢型材无损检测装置及其检测方法

超声波探头阵列钢型材无损检测方法摄像模块输送辊道

立场检测方法、装置、设备、存储介质和程序产品

大语言模型文本节点符号计算机程序产品

桥梁三维扫描高精度检测方法、装置、设备及存储介质

高精度检测方法三维点云数据融合特征纹理三维网格模型

一种基于大语言模型的视频合成方法、设备及介质

站点导航

APP 下载