摘要
本发明公开了一种基于多分辨率图文融合的单目视频高斯人体化身方法,属于计算机视觉和图形学领域。包括:首先在文本图像特征处理模块对人体视频进行自定义的文本描述作为模型输入;设计多分辨率特征强化时序一致性模块。基于生成的高斯点云和融合后的动态特征,通过3D高斯飞溅技术进行渲染。本发明通过在不同分辨率下提取和融合特征来捕捉全局与局部的动态细节。低分辨率路径则用于增强对动态全局外观的捕捉能力,高分辨率路径专注于恢复人体化身的精细特征,通过结合时序一致性,高分辨率细节能够协助捕捉微小的动态变化,并缓解跨帧抖动,使得生成的人体化身动作更加自然和连贯。
技术关键词
化身方法
多分辨率特征
视频
图文
视觉特征
捕捉人体
时序
动态
融合特征
参数
模块
自然语言
图像
文本编码器
语义层面
深度学习模型