摘要
本发明涉及人工智能视觉处理技术领域,具体公开了视觉语言模型训练方法、设备、介质及计算机程序产品,通过将图像数据集中的各示例图像建立全局视觉特征、前景视觉特征、聚合视觉特征的层级式视觉特征库,在训练视觉语言模型时,利用视觉语言模型的视觉提示器进行层级式筛选,提高查询示例图像的效率以及质量,利用关联示例图像与查询图像之间的相似性损失值以及图像处理结果的处理损失值计算得到模型训练损失值来更新视觉感知模型的参数,实现对视觉语言模型的全局优化,相较于传统方案中采用局部模块适配的方式能够避免陷入局部最优,从而进一步提高图像处理质量。
技术关键词
全局视觉特征
语言模型训练方法
图像处理方法
交叉注意力机制
计算机程序产品
语义
样本
提示器
人工智能视觉
非易失性存储介质
标签
存储计算机程序
数据
处理器
层级
参数
系统为您推荐了相关专利信息
语音
通信协议接口
模态特征
麦克风频响曲线
语种识别
版本升级方法
预测评估模型
阶段
主备切换单元
容器
共享单车
注意力
需求预测方法
时间卷积网络
动态时间规整算法
数据分包传输方法
信号强度阈值
接收方
发送方
速率