视觉语言模型的训练方法、装置及电子设备

AITNT
正文
推荐专利
视觉语言模型的训练方法、装置及电子设备
申请号:CN202511178949
申请日期:2025-08-21
公开号:CN121033873A
公开日期:2025-11-28
类型:发明专利
摘要
本公开提供了视觉语言模型的训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、计算机视觉、大模型等技术领域。具体实现方案为:获取微调训练数据以及待训练的视觉语言模型;将微调训练数据中的样本图像以及文本指令输入视觉语言模型,获取预测结构化字段序列;根据微调训练数据中的样本结构化字段序列以及预测结构化字段序列,确定字段召回率;进而结合以字段召回率为输入奖励值的损失函数,对视觉语言模型进行参数调整处理,得到微调后的视觉语言模型;视觉语言模型能够学习如何提取准确的结构化字段序列,从而提高微调后的视觉语言模型对结构化字段序列的提取准确度,进而提高微调后的视觉语言模型的准确度。
技术关键词
字段 序列 样本 视觉 文本 网络 图像编码 注意力机制 指令 数值 图文 电子设备 图像处理装置 处理器 图像处理方法 参数 人工智能技术 计算机程序产品
系统为您推荐了相关专利信息
1
一种基于生成对抗网络的焊缝X射线图像增强方法
焊缝X射线 图像增强方法 生成器网络 生成对抗网络 图像增强模型
2
一种基于多视角骨架分析与视频理解的犬类行为识别方法及系统
多视角 相机标定 三维骨架结构 识别方法 视频采集模块
3
一种基于人工智能技术的医学理论考试智能组卷方法
智能组卷方法 人工智能技术 文本 知识点 图像特征向量
4
一种通过大语言模型获取问题答复的方法和装置
目录 大语言模型 树状结构 节点 超文本标记语言
5
软件需求分析方法、装置、设备、介质和程序产品
大语言模型 数据 需求分析方法 多模态 软件需求分析
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号