摘要
本申请属于人工智能技术领域,涉及一种基于人工智能的图像生成方法、装置、计算机设备及存储介质,包括:获取用户输入的初始文本,以及获取输入图像;基于文本姿势编码器对初始文本进行特征提取得到文本姿势嵌入;基于视觉姿势编码器对输入图像进行特征提取得到视觉姿势嵌入;基于跨模态姿势对齐模块对文本姿势嵌入与视觉姿势嵌入进行对齐处理得到目标姿势表征;将目标姿势表征注入至预设的图像生成器中;基于图像生成器,根据目标姿势表征执行图像生成处理并得到目标图像;基于目标图像对用户进行反馈处理。此外,本申请的目标图像可存储于区块链中。本申请可应用于金融领域与医疗领域中的文生图场景,能够提高生成图像的质量和姿势控制精度。
技术关键词
图像生成方法
图像生成器
对齐模块
文本
编码器
视觉
计算机可读指令
关键点
跨模态
注意力
特征提取网络
多层感知器
计算机设备
加权特征
融合策略
图像生成装置
图像特征提取
姿势矫正
系统为您推荐了相关专利信息
问答交互方法
文本
非暂时性机器可读存储介质
大语言模型
场景