视觉语言模型训练方法、设备、介质及计算机程序产品

正文

推荐专利

申请号：CN202411719465

申请日期：2024-11-28

公开号：CN119229238B

公开日期：2025-04-29

类型：发明专利

摘要

本发明涉及人工智能视觉处理技术领域，具体公开了视觉语言模型训练方法、设备、介质及计算机程序产品，通过将图像数据集中的各示例图像建立全局视觉特征、前景视觉特征、聚合视觉特征的层级式视觉特征库，在训练视觉语言模型时，利用视觉语言模型的视觉提示器进行层级式筛选，提高查询示例图像的效率以及质量，利用关联示例图像与查询图像之间的相似性损失值以及图像处理结果的处理损失值计算得到模型训练损失值来更新视觉感知模型的参数，实现对视觉语言模型的全局优化，相较于传统方案中采用局部模块适配的方式能够避免陷入局部最优，从而进一步提高图像处理质量。

技术关键词

全局视觉特征语言模型训练方法图像处理方法交叉注意力机制计算机程序产品语义样本提示器人工智能视觉非易失性存储介质标签存储计算机程序数据处理器层级参数

系统为您推荐了相关专利信息

一种跨境通信中的多语言深度合成语音自适应检测方法

语音通信协议接口模态特征麦克风频响曲线语种识别

数据库版本升级方法、装置、电子设备、存储介质及产品

版本升级方法预测评估模型阶段主备切换单元容器

一种共享单车需求预测方法及系统

共享单车注意力需求预测方法时间卷积网络动态时间规整算法

一种速率自适应的多模态数据分包传输方法

数据分包传输方法信号强度阈值接收方发送方速率

车辆的胎压控制方法、装置、车辆、存储介质及产品

环境感知数据车辆基准历史气象数据胎压

视觉语言模型训练方法、设备、介质及计算机程序产品

站点导航

APP 下载