摘要
本公开提供了一种视频生成方法、直播方法、装置、智能体及电子设备,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、计算机视觉、大模型、数字直播技术领域。具体实现方案为:获取直播剧本,直播剧本包括剧本文本和多个剧本标签;基于剧本文本,对虚拟形象的语音和唇动进行推理渲染,得到初始视频;以及基于多个剧本标签,对初始视频中虚拟形象的动作、表情、音调中的至少一项进行调节,得到目标视频。
技术关键词
标签
视频生成方法
直播方法
文本
大语言模型
生成音频数据
视频生成装置
特征信息提取
语音
输入模块
电子设备
处理器
多模态
直播技术
数据嵌入
人工智能技术
计算机程序产品
计算机视觉