视觉文本生成方法、模型训练方法、智能体及装置

AITNT
正文
推荐专利
视觉文本生成方法、模型训练方法、智能体及装置
申请号:CN202510838733
申请日期:2025-06-20
公开号:CN120782920A
公开日期:2025-10-14
类型:发明专利
摘要
本公开提供了视觉文本生成方法、模型训练方法、智能体及装置,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于基于人工智能的内容生成等场景。具体实现方案为:通过将图像中视觉文字的语言结构信息训练进图像的离散潜空间,并构建一个具备结构理解能力的自回归生成器,从而可以生成图像离散化表征,通过对图像离散化表征进行解码处理,得到包括视觉文字的重建图像,基于图像训练数据中的图像标签和重建图像、以及视觉文字在重建图像中的语言结构信息确定损失函数,基于损失函数进行模型训练,获得训练后的视觉文本生成模型。
技术关键词
文本生成模型 视觉 文本生成方法 数据 模型训练方法 图像嵌入 图像渲染引擎 重建误差 文本生成装置 训练装置 编码 光学字符识别 输入模块 阶段 标签 处理器 人工智能技术
系统为您推荐了相关专利信息
1
基于三维场景辐射仿真的高光谱遥感图像生成方法及装置
三维场景数据 光谱成像 辐亮度参数 仿真模型 图像生成方法
2
壁面沸腾模拟方法、设备及存储介质
壁面 深度神经网络模型 参数 气泡 流体动力学技术
3
一种基于物联网的智能供应链运输管理平台
物联网IoT设备 多智能体协同调度 路径优化算法 实时位置 构建智能合约
4
基于环境条件生成针对飞行器的动态利用措施
计划 数据 空气质量指数 动态地 机器学习模型
5
基于检索增强生成大模型的SOAR剧本生成方法、装置及设备
文本 数据 生成方法 意图识别 节点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号