摘要
本公开提供了基于大模型的数字人视频生成方法、装置、智能体、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、大模型、计算机视觉等技术领域,可以应用于视频直播、广告制作、电商销售等场景。基于大模型的数字人视频生成方法包括:获取需求信息,需求信息包括用于描述指定的动作视频片段的动作描述信息,动作视频片段表征目标对象的指定动作;利用语言大模型处理需求信息,得到目标剧本,目标剧本包括与动作描述信息相匹配的目标口播片段文本;利用视觉大模型处理目标剧本和动作视频片段,得到用于显示目标对象在执行指定动作过程中,基于目标口播片段文本进行口播的目标视频。
技术关键词
过渡动作
视频生成方法
文本
韵律特征
语音
动态
对象属性信息
指令
视频生成装置
视觉
意图
输入模块
数据
电子设备
处理器
音频
人工智能技术
计算机
系统为您推荐了相关专利信息
图像生成方法
生成高质量图像
插件模型
多模型
风格
特征提取模型
文本生成方法
融合特征
神经网络模型
视频