摘要
本发明公开了一种基于大语言模型的可控示意图生成方法、系统及存储介质,方法包括构建基于大语言模型的示意图生成任务数据集;根据示意图的图像特点预先建立示意图的布局规划规则,通过示意图的布局规划规则将基于大语言模型的示意图生成任务数据集转换为设定布局的示意图;对示意图的布局规划规则进行序列化处理,转换成文本表达形式,并定位文本表达形式的布局规划规则在图像中的应用区域;对应布局规划规则在图像中的应用区域,结合多模态嵌入表征和微调的扩散模型,优化序列化处理过程和图像生成过程,生成符合需求的示意图。本发明能够有效应对示意图生成过程中的高层语义复杂性及底层视觉多样性的挑战,提升示意图理解技术的整体质量。
技术关键词
大语言模型
布局
生成方法
规划
多模态
注意力机制
文本编码器
预训练模型
视觉
生成数据集
注意力模型
理解技术
可读存储介质
标记
噪声图像
语义
系统为您推荐了相关专利信息
数据库查询方法
轻量化神经网络
数据库查询系统
数据库执行计划
蒸馏
AI助手
人工智能模型
模拟沙盘
工作辅助系统
格式