视觉语言模型训练方法、设备、介质和计算机程序产品

正文

推荐专利

申请号：CN202411001895

申请日期：2024-07-25

公开号：CN118520933B

公开日期：2024-09-17

类型：发明专利

摘要

本发明公开了一种视觉语言模型训练方法、设备、介质和计算机程序产品，涉及人工智能技术领域，该方法包括：获取查询图像和对应的标签，并生成查询图像的场景图；利用视觉语言模型中的视觉提示器基于场景图在图像集中筛选与查询图像最相似的目标图像；基于目标图像和可学习参数生成可学习提示词，将可学习提示词融合至目标图像和对应的标签中；将融合后的目标图像和对应的融合后的标签、查询图像输入视觉语言模型中得到查询图像的预测结果；根据预测结果和查询图像对应的标签计算损失值，基于损失值训练视觉提示器中的参数、可学习参数得到训练完成的视觉语言模型。本发明提升了视觉语言模型在上下文学习中的性能。

技术关键词

语言模型训练方法视觉文本图像编码提示器语义场景对象非易失性存储介质标签计算机程序产品注意力机制预训练模型参数关系存储计算机程序分词人工智能技术

系统为您推荐了相关专利信息

一种无人值守智能式医疗档案管理存取系统

医疗档案管理存取系统状态监控模块上下文感知技术数据处理模块

一种功率磁心视觉检测装置及功率磁心检测分类系统

磁心图像采集组件视觉检测装置检测分类系统功率

一种精密镗铣床夹紧系统的多参数协同控制方法和装置

夹紧系统模糊决策树协同控制方法电液比例阀镗铣床

一种多模态大模型驱动的视频评论与画面精准匹配方法、系统

精准匹配方法高维特征向量多模态文本视频

一种基于病情推荐就诊科室的语音导航方法、装置及设备

语音导航方法关键词患者语音导航装置智能医疗技术

视觉语言模型训练方法、设备、介质和计算机程序产品

站点导航

APP 下载