摘要
本发明公开了一种基于多模态大模型的文本到图像生成模型评估方法与系统。本发明包括多层次图像信息提取与图像特征矩阵构建、分层文本提示生成与优化、生成图像批量化生成、交互式图像对比与评分、多维反馈与提示修订多个步骤,通过重复执行这些步骤流程动态调整生成策略,直至满足预设停止条件。最终,根据参考图像与最优生成图像的多维视觉评估结果,全面分析目标生成模型的性能表现。本发明的评估方法通过图像再生成任务,使生成模型能够基于参考图像的内容和风格进行精准生成,克服了现有评估方法在跨模态信息对齐方面的不足,具有较高的应用价值。
技术关键词
图像生成模型
多模态
文本
生成图像集合
大语言模型
对象
细粒度特征
视觉
语义层面
计算机电子设备
多层次
交互式图像
自然语言
动作关系
矩阵
存储计算机程序
图像结构
系统为您推荐了相关专利信息
障碍物识别方法
三维语义地图
深度图数据
三维点云数据
多模态
风电运行风险
分析系统
多模态数据融合
风电设备
特征提取模块