基于大语言模型的图像生成方法、视觉大模型的训练方法、装置及智能体

正文

推荐专利

申请号：CN202411749772

申请日期：2024-11-29

公开号：CN119516044B

公开日期：2025-11-11

类型：发明专利

摘要

本公开提供了基于大语言模型的图像生成方法、视觉大模型的训练方法、装置及智能体，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域。该基于大语言模型的图像生成方法包括：获取需求文本；利用大语言模型处理需求文本，得到目标需求文本特征，目标需求文本特征包括图像字特征与属性提示特征，图像字特征表征生成的目标图像中需要展示的图像字，属性提示特征与图像字的图像属性相关；利用视觉大模型处理目标需求文本特征，得到目标图像，目标图像包括基于图像属性展示的图像字区域，图像字区域表征需求文本中的图像字。

技术关键词

融合特征文本视觉噪声图像大语言模型样本噪声特征噪声信息降噪模块图像生成方法注意力机制级联场景标签子模块网络结构蒸馏处理单元

系统为您推荐了相关专利信息

一种基于条件扩散模型的无监督点云形状对应方法及系统

点云变换器无监督标签编码器

一种融合人机协同的智能体素建模方法

人机协同建模方法生成代码格式转换器自然语言

一种高效ETC特情处理系统及其工作方法

ETC车道高速公路ETC系统 ETC设备车载单元诊断模块

一种转盘式预叠设备

上料机构定位模组转盘机构移料机构上料机器人

一种语音大模型训练与推理架构优化方法

推理架构生成语音强化学习算法文本教师

基于大语言模型的图像生成方法、视觉大模型的训练方法、装置及智能体

站点导航

APP 下载