摘要
本申请公开了基于多模态大模型的UI效果图识别方法、系统及介质,方法包括如下步骤:基于图像编码、多模态投影以及文本编码构建多模态预训练模型;根据历史图像数据以及多模态预训练模型执行微调训练,获取多模态大模型;基于内置组件数据结构构建向量数据库;获取待识别UI效果图,基于多模态大模型以及待识别UI效果图输出第一识别数据;利用检索算法针对第一识别数据搜寻向量数据库,输出对应待识别UI效果图的生成信息。本申请的有益效果:确保UI效果图生成一致性以及高效性。
技术关键词
多模态
预训练模型
识别方法
融合视觉特征
图像编码
数据
检索算法
注意力
文本
图片
构建知识图谱
知识图谱构建
调优技术
分辨率
插值方法
语义特征
识别系统