摘要
本发明提供了一种生成式数字人的商品手持展示方法及装置,涉及数字人手持图像生成技术领域,本方法通过预训练的关键点检测模型提取手部的关键点信息,并将其作为条件输入嵌入到DiT模型中;关键点信息经过位置编码和热图转换,与图像特征通过交叉注意力机制进行深度融合,使模型能够动态关注手部与商品接触的关键区域,从而生成更加自然、合理的手持姿势。此外,模型训练过程中还引入了关键点对齐损失,通过计算生成图像与目标图像的关键点之间的距离,进一步优化生成效果,确保手部姿势的准确性和自然度。旨在解决传统展示方法中存在的姿态不自然、无法适应不同商品尺寸等问题。
技术关键词
关键点特征
展示方法
交叉注意力机制
生成融合图像
噪声预测
坐标
图像生成技术
噪声图像
矩阵
检测器
展示装置
图像分割
姿势
图片
像素
编码