摘要
本发明公开了一种视觉语言模型训练方法、设备、介质和计算机程序产品,涉及人工智能技术领域,该方法包括:获取查询图像和对应的标签,并生成查询图像的场景图;利用视觉语言模型中的视觉提示器基于场景图在图像集中筛选与查询图像最相似的目标图像;基于目标图像和可学习参数生成可学习提示词,将可学习提示词融合至目标图像和对应的标签中;将融合后的目标图像和对应的融合后的标签、查询图像输入视觉语言模型中得到查询图像的预测结果;根据预测结果和查询图像对应的标签计算损失值,基于损失值训练视觉提示器中的参数、可学习参数得到训练完成的视觉语言模型。本发明提升了视觉语言模型在上下文学习中的性能。
技术关键词
语言模型训练方法
视觉
文本
图像编码
提示器
语义
场景
对象
非易失性存储介质
标签
计算机程序产品
注意力机制
预训练模型
参数
关系
存储计算机程序
分词
人工智能技术
系统为您推荐了相关专利信息
医疗档案管理
存取系统
状态监控模块
上下文感知技术
数据处理模块
磁心
图像采集组件
视觉检测装置
检测分类系统
功率
夹紧系统
模糊决策树
协同控制方法
电液比例阀
镗铣床
语音导航方法
关键词
患者
语音导航装置
智能医疗技术