视觉语言模型训练方法、设备、介质及计算机程序产品

AITNT
正文
推荐专利
视觉语言模型训练方法、设备、介质及计算机程序产品
申请号:CN202411719465
申请日期:2024-11-28
公开号:CN119229238B
公开日期:2025-04-29
类型:发明专利
摘要
本发明涉及人工智能视觉处理技术领域,具体公开了视觉语言模型训练方法、设备、介质及计算机程序产品,通过将图像数据集中的各示例图像建立全局视觉特征、前景视觉特征、聚合视觉特征的层级式视觉特征库,在训练视觉语言模型时,利用视觉语言模型的视觉提示器进行层级式筛选,提高查询示例图像的效率以及质量,利用关联示例图像与查询图像之间的相似性损失值以及图像处理结果的处理损失值计算得到模型训练损失值来更新视觉感知模型的参数,实现对视觉语言模型的全局优化,相较于传统方案中采用局部模块适配的方式能够避免陷入局部最优,从而进一步提高图像处理质量。
技术关键词
全局视觉特征 语言模型训练方法 图像处理方法 交叉注意力机制 计算机程序产品 语义 样本 提示器 人工智能视觉 非易失性存储介质 标签 存储计算机程序 数据 处理器 层级 参数
系统为您推荐了相关专利信息
1
一种跨境通信中的多语言深度合成语音自适应检测方法
语音 通信协议接口 模态特征 麦克风频响曲线 语种识别
2
数据库版本升级方法、装置、电子设备、存储介质及产品
版本升级方法 预测评估模型 阶段 主备切换单元 容器
3
一种共享单车需求预测方法及系统
共享单车 注意力 需求预测方法 时间卷积网络 动态时间规整算法
4
一种速率自适应的多模态数据分包传输方法
数据分包传输方法 信号强度阈值 接收方 发送方 速率
5
车辆的胎压控制方法、装置、车辆、存储介质及产品
环境感知数据 车辆 基准 历史气象数据 胎压
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号