摘要
本申请属于人工智能技术领域,涉及一种基于人工智能的图像处理方法、装置、计算机设备及存储介质,包括:获取输入的文本描述与参考图像;基于层次化编码器对文本描述与参考图像进行特征提取,得到与文本描述对应的文本嵌入,以及与参考图像对应的姿态嵌入;基于层次化对齐模块对文本嵌入与姿态嵌入进行语义对齐处理得到对齐特征;基于跨模态适配器对对齐特征进行语义优化处理得到目标特征;基于姿态条件生成器执行与目标特征对应的图像生成处理得到目标图像;对目标图像进行输出处理。此外,本申请的目标图像可存储于区块链中。本申请可应用于金融领域和医疗领域中的文生图场景,实现了文本到图像的精确姿态控制,提高了生成的目标图像的质量。
技术关键词
图像处理方法
对齐模块
计算机可读指令
语义
交叉注意力机制
适配器
文本编码器
计算机设备
跨模态
图像处理装置
可读存储介质
人工智能技术
姿势
噪声抑制
关节
策略
处理器