视觉语言模型训练方法、设备、介质和计算机程序产品

正文

推荐专利

申请号：CN202411001891

申请日期：2024-07-25

公开号：CN118520932B

公开日期：2024-10-15

类型：发明专利

摘要

本发明公开了一种视觉语言模型训练方法、设备、介质和计算机程序产品，涉及人工智能技术领域，该方法包括：利用可学习提示器获取不同类别的图像的可学习提示词，对不同类别的可学习提示词进行编码得到第一文本编码；获取不同类别的图像的预设提示词融合外部知识之后的第二文本编码；基于相同类别对应的第一文本编码和第二文本编码计算第一损失值；利用视觉提取器提取不同类别的图像在视觉层面上的视觉编码，基于相同类别对应的第一文本编码和视觉编码计算第二损失值；基于第一损失值与第二损失值的和计算整体损失值，并基于整体损失值训练可学习提示器和视觉提取器得到训练完成的视觉语言模型。本发明提高了视觉语言模型的泛化能力。

技术关键词

语言模型训练方法视觉融合外部知识文本编码图像高频特征非易失性存储介质融合特征计算机程序产品预训练模型适配器提示器色彩注意力机制深度学习模型存储计算机程序人工智能技术自然语言电子设备

系统为您推荐了相关专利信息

一种基于AI大模型的政策挖掘及智能交互平台

智能交互平台文本关键词时序特征词向量训练

基于AI大模型的工程项目报告生成方法、装置及设备

大语言模型文本工程项目管理系统报告生成方法生成工作

基于多级综合注意力的双路径医学图像分割方法及装置

转换器模块注意力医学图像分割方法医学图像数据编码器

一种大模型问答的知识溯源方法、装置、介质和设备

文本溯源方法载体列表模式

智能问答场景下的表格知识存储方法、装置、介质及设备

表头表格知识存储方法问答场景文本分类模型训练

视觉语言模型训练方法、设备、介质和计算机程序产品

站点导航

APP 下载