摘要
一种基于文本调整与视觉反馈的针织产品图像生成方法及装置,涉及计算机视觉领域,包括:构建对输入文本进行调节的语言模型;将接收到的用户输入的针织相关文本输入经训练的语言模型,获得对用户输入文本进行自适应调整后的文本;将自适应调整后的文本输入经训练的文生图模型,生成对应的图像;对自适应调整后的文本格式化为判断生成的图像与自适应调整后的文本是否吻合,将格式化文本和生成的图像输入大型视觉语言模型进行视觉问答,获得得分;若得分符合预期,输出针织产品图像;若得分不符合预期,最小化文本自注意力矩阵和交叉注意力相似性矩阵的距离优化潜在噪声变量,再次生成图像。本发明显著提升了针织产品图像的生成质量和用户体验。
技术关键词
注意力
针织产品
图像生成方法
生成流
文本编码器
矩阵
标记
格式化
噪声
元素
变量
预训练语言模型
图像生成装置
网络
策略
计算机视觉