视觉文本生成方法、模型训练方法、智能体及装置

正文

推荐专利

申请号：CN202510838733

申请日期：2025-06-20

公开号：CN120782920A

公开日期：2025-10-14

类型：发明专利

摘要

本公开提供了视觉文本生成方法、模型训练方法、智能体及装置，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于基于人工智能的内容生成等场景。具体实现方案为：通过将图像中视觉文字的语言结构信息训练进图像的离散潜空间，并构建一个具备结构理解能力的自回归生成器，从而可以生成图像离散化表征，通过对图像离散化表征进行解码处理，得到包括视觉文字的重建图像，基于图像训练数据中的图像标签和重建图像、以及视觉文字在重建图像中的语言结构信息确定损失函数，基于损失函数进行模型训练，获得训练后的视觉文本生成模型。

技术关键词

文本生成模型视觉文本生成方法数据模型训练方法图像嵌入图像渲染引擎重建误差文本生成装置训练装置编码光学字符识别输入模块阶段标签处理器人工智能技术

系统为您推荐了相关专利信息

基于三维场景辐射仿真的高光谱遥感图像生成方法及装置

三维场景数据光谱成像辐亮度参数仿真模型图像生成方法

壁面沸腾模拟方法、设备及存储介质

壁面深度神经网络模型参数气泡流体动力学技术

一种基于物联网的智能供应链运输管理平台

物联网IoT设备多智能体协同调度路径优化算法实时位置构建智能合约

基于环境条件生成针对飞行器的动态利用措施

计划数据空气质量指数动态地机器学习模型

基于检索增强生成大模型的SOAR剧本生成方法、装置及设备

文本数据生成方法意图识别节点

视觉文本生成方法、模型训练方法、智能体及装置

站点导航

APP 下载