摘要
本发明涉及一种基于场景图的多对象文本生成图像语义评测方法和系统。该方法包括:对文本提示和生成图像进行多模态对象特征编码,得到文本对象特征和图像对象特征;计算文本对象特征和图像对象特征的相似度,得到对象的语义一致性;对文本提示和生成图像中的对象关系进行编码,得到文本关系特征和视觉关系特征;计算文本关系特征和视觉关系特征的相似度,得到关系的语义一致性;综合对象的语义一致性和关系的语义一致性,得到最终的文本生成图像语义一致性评测结果。本发明能够考虑到生成图像与用户给定的文本提示之间的一致性,在包含多个对象的复杂场景中能够对生成图像的对象存在性、对象属性、对象关系等方面做出客观、正确的评测结果。
技术关键词
图像对象特征
文本生成图像
语义评测方法
关系
多模态
存储计算机程序
文本编码器
图像编码器
评测系统
可读存储介质
场景
多层感知机
视觉特征
阶段
系统为您推荐了相关专利信息
手语特征
运动特征
视觉特征
手语翻译方法
训练神经网络
融合知识图谱
实体关系抽取模型
三元组
大语言模型
答案
图像生成模型
大语言模型
进化方法
进化算法
网络架构