摘要
经由交叉注意力免费局部化文本到图像生成的系统和方法。一种方法公开了在模型的交叉注意力层处接收描述第一对象的第一文本数据和描述第一场景的第二文本数据,其中第一文本数据包括第一对象的位置描述,利用具有交叉注意力层的模型,连接第一文本数据和第二文本数据以生成提示;生成至少由所述位置构造的所广播位置掩码;生成与描述了第一场景的第二文本数据相关联的所广播全1矩阵;利用提示的单独线性投影计算键矩阵和值矩阵;利用线性投影计算查询矩阵;响应于连接所广播位置掩码和所广播全1矩阵来生成所广播位置矩阵;利用所述查询矩阵、所述键矩阵和所广播位置矩阵来生成交叉注意力图;并输出最终图像。
技术关键词
文本
注意力
矩阵
数据
对象
预训练模型
场景
图像
线性
像素
输入接口
令牌
处理器
编程
计算机
元素
系统为您推荐了相关专利信息
振动信号分类方法
光纤复合海底电缆
复合海缆
极限学习机
三维仿真模型
测定方法
稳定同位素质谱仪
甲烷碳同位素
钻孔
瓦斯灾害防治技术
卷烟识别
数量统计方法
四边形
计算机视觉
图像采集模块
水印嵌入
融合纹理
三维模型
水印提取方法
分析单元