摘要
本公开提供了基于大语言模型的图像生成方法、视觉大模型的训练方法、装置及智能体,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域。该基于大语言模型的图像生成方法包括:获取需求文本;利用大语言模型处理需求文本,得到目标需求文本特征,目标需求文本特征包括图像字特征与属性提示特征,图像字特征表征生成的目标图像中需要展示的图像字,属性提示特征与图像字的图像属性相关;利用视觉大模型处理目标需求文本特征,得到目标图像,目标图像包括基于图像属性展示的图像字区域,图像字区域表征需求文本中的图像字。
技术关键词
融合特征
文本
视觉
噪声图像
大语言模型
样本
噪声特征
噪声信息
降噪模块
图像生成方法
注意力机制
级联
场景
标签
子模块
网络结构
蒸馏
处理单元
系统为您推荐了相关专利信息
人机协同
建模方法
生成代码
格式转换器
自然语言
ETC车道
高速公路ETC系统
ETC设备
车载单元
诊断模块
上料机构
定位模组
转盘机构
移料机构
上料机器人