视觉语言模型的训练方法、装置及电子设备

正文

推荐专利

视觉语言模型的训练方法、装置及电子设备

申请号：CN202511178949

申请日期：2025-08-21

公开号：CN121033873A

公开日期：2025-11-28

类型：发明专利

摘要

本公开提供了视觉语言模型的训练方法、装置及电子设备，涉及人工智能技术领域，尤其涉及深度学习、自然语言处理、计算机视觉、大模型等技术领域。具体实现方案为：获取微调训练数据以及待训练的视觉语言模型；将微调训练数据中的样本图像以及文本指令输入视觉语言模型，获取预测结构化字段序列；根据微调训练数据中的样本结构化字段序列以及预测结构化字段序列，确定字段召回率；进而结合以字段召回率为输入奖励值的损失函数，对视觉语言模型进行参数调整处理，得到微调后的视觉语言模型；视觉语言模型能够学习如何提取准确的结构化字段序列，从而提高微调后的视觉语言模型对结构化字段序列的提取准确度，进而提高微调后的视觉语言模型的准确度。

技术关键词

字段序列样本视觉文本网络图像编码注意力机制指令数值图文电子设备图像处理装置处理器图像处理方法参数人工智能技术计算机程序产品

系统为您推荐了相关专利信息

一种基于生成对抗网络的焊缝X射线图像增强方法

焊缝X射线图像增强方法生成器网络生成对抗网络图像增强模型

一种基于多视角骨架分析与视频理解的犬类行为识别方法及系统

多视角相机标定三维骨架结构识别方法视频采集模块

一种基于人工智能技术的医学理论考试智能组卷方法

智能组卷方法人工智能技术文本知识点图像特征向量

一种通过大语言模型获取问题答复的方法和装置

目录大语言模型树状结构节点超文本标记语言

软件需求分析方法、装置、设备、介质和程序产品

大语言模型数据需求分析方法多模态软件需求分析

视觉语言模型的训练方法、装置及电子设备

站点导航

APP 下载