摘要
本发明涉及一种基于大语言模型的视频合成方法、设备及介质,其中方法包括:获取用户输入信息,包括肖像图像、参考语音和内容参考信息;对输入信息进行多模态特征提取,得到多模态特征,包括肖像图像特征、参考语音特征和内容参考信息特征;将肖像图像特征输入基于深度学习构建的数字人模型,生成初始视频;将参考语音特征和内容参考信息特征输入预设的第一大语言模型,生成视频文案和分镜信息;基于多模态特征在本地视频素材库中进行匹配,得到匹配素材;将分镜信息和匹配素材输入第二大语言模型,生成视频内容时间表;基于视频内容时间表、初始视频和视频文案进行视频合成,输出最终合成视频。
技术关键词
大语言模型
多模态特征
语音特征
生成视频内容
三维网格模型
微调方法
图像
融合特征
时序
视频编辑
处理器
多轨道
注意力机制
视频编码
美学
模板
序列
系统为您推荐了相关专利信息
纠正方法
汉字
BERT模型
预训练语言模型
文本
大语言模型
状态机
生成系统
语法结构
非暂态计算机可读介质
超声波探头阵列
钢型材
无损检测方法
摄像模块
输送辊道
高精度检测方法
三维点云数据
融合特征
纹理
三维网格模型