摘要
本发明属于图像处理领域,提供一种数字人直播视频合成方法及系统,包括接收用户的多模态数据输入,所述多模态数据包括:语音、文本以及图像;从所述多模态数据中提取关键特征;将所述关键特征进行融合,形成融合条件;利用神经网络模型,根据所述融合条件生成对应的辐射场表示;根据实时输入微调所述辐射场参数;将生成的辐射场转换为视频输出。
技术关键词
视频
管理系统资源
管理系统用户
多模态
语音特征提取
神经网络模型
系统管理模块
保障系统
数据加密
低延迟
文本
特征提取模块
图像处理
面部
校正
参数
系统为您推荐了相关专利信息
动作检测方法
计算机可读取存储介质
解析器
视觉
动作检测装置
管理方法
风险评估模型
资源调度优化
分级响应机制
多源异构数据
视频语义分割方法
泊车场景
运动特征
事件特征
语义分割系统