一种基于场景图的多对象文本生成图像语义评测方法和系统

正文

推荐专利

申请号：CN202411945550

申请日期：2024-12-27

公开号：CN120014418A

公开日期：2025-05-16

类型：发明专利

摘要

本发明涉及一种基于场景图的多对象文本生成图像语义评测方法和系统。该方法包括：对文本提示和生成图像进行多模态对象特征编码，得到文本对象特征和图像对象特征；计算文本对象特征和图像对象特征的相似度，得到对象的语义一致性；对文本提示和生成图像中的对象关系进行编码，得到文本关系特征和视觉关系特征；计算文本关系特征和视觉关系特征的相似度，得到关系的语义一致性；综合对象的语义一致性和关系的语义一致性，得到最终的文本生成图像语义一致性评测结果。本发明能够考虑到生成图像与用户给定的文本提示之间的一致性，在包含多个对象的复杂场景中能够对生成图像的对象存在性、对象属性、对象关系等方面做出客观、正确的评测结果。

技术关键词

图像对象特征文本生成图像语义评测方法关系多模态存储计算机程序文本编码器图像编码器评测系统可读存储介质场景多层感知机视觉特征阶段

系统为您推荐了相关专利信息

手语翻译方法、装置、计算机设备及存储介质

手语特征运动特征视觉特征手语翻译方法训练神经网络

基于融合知识图谱和大语言模型的变压器故障诊断方法及系统

融合知识图谱实体关系抽取模型三元组大语言模型答案

基于模块化打包器的按需编译与动态分包方法及系统

打包器分包方法模块动态策略

基于多模态大语言模型适应度评估的场景内容生成进化方法

图像生成模型大语言模型进化方法进化算法网络架构

一种因果发现方法、装置及电子设备

核心变量指标因子时间段

一种基于场景图的多对象文本生成图像语义评测方法和系统

站点导航

APP 下载