摘要
本公开提供了视觉文本生成方法、模型训练方法、智能体及装置,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于基于人工智能的内容生成等场景。具体实现方案为:通过将图像中视觉文字的语言结构信息训练进图像的离散潜空间,并构建一个具备结构理解能力的自回归生成器,从而可以生成图像离散化表征,通过对图像离散化表征进行解码处理,得到包括视觉文字的重建图像,基于图像训练数据中的图像标签和重建图像、以及视觉文字在重建图像中的语言结构信息确定损失函数,基于损失函数进行模型训练,获得训练后的视觉文本生成模型。
技术关键词
文本生成模型
视觉
文本生成方法
数据
模型训练方法
图像嵌入
图像渲染引擎
重建误差
文本生成装置
训练装置
编码
光学字符识别
输入模块
阶段
标签
处理器
人工智能技术
系统为您推荐了相关专利信息
三维场景数据
光谱成像
辐亮度参数
仿真模型
图像生成方法
壁面
深度神经网络模型
参数
气泡
流体动力学技术
物联网IoT设备
多智能体协同调度
路径优化算法
实时位置
构建智能合约