视觉语言模型训练方法、设备、介质和计算机程序产品

AITNT
正文
推荐专利
视觉语言模型训练方法、设备、介质和计算机程序产品
申请号:CN202411001891
申请日期:2024-07-25
公开号:CN118520932B
公开日期:2024-10-15
类型:发明专利
摘要
本发明公开了一种视觉语言模型训练方法、设备、介质和计算机程序产品,涉及人工智能技术领域,该方法包括:利用可学习提示器获取不同类别的图像的可学习提示词,对不同类别的可学习提示词进行编码得到第一文本编码;获取不同类别的图像的预设提示词融合外部知识之后的第二文本编码;基于相同类别对应的第一文本编码和第二文本编码计算第一损失值;利用视觉提取器提取不同类别的图像在视觉层面上的视觉编码,基于相同类别对应的第一文本编码和视觉编码计算第二损失值;基于第一损失值与第二损失值的和计算整体损失值,并基于整体损失值训练可学习提示器和视觉提取器得到训练完成的视觉语言模型。本发明提高了视觉语言模型的泛化能力。
技术关键词
语言模型训练方法 视觉 融合外部知识 文本 编码 图像 高频特征 非易失性存储介质 融合特征 计算机程序产品 预训练模型 适配器 提示器 色彩 注意力机制 深度学习模型 存储计算机程序 人工智能技术 自然语言 电子设备
系统为您推荐了相关专利信息
1
一种基于AI大模型的政策挖掘及智能交互平台
智能交互平台 文本 关键词 时序特征 词向量训练
2
基于AI大模型的工程项目报告生成方法、装置及设备
大语言模型 文本 工程项目管理系统 报告生成方法 生成工作
3
基于多级综合注意力的双路径医学图像分割方法及装置
转换器模块 注意力 医学图像分割方法 医学图像数据 编码器
4
一种大模型问答的知识溯源方法、装置、介质和设备
文本 溯源方法 载体 列表 模式
5
智能问答场景下的表格知识存储方法、装置、介质及设备
表头 表格 知识存储方法 问答场景 文本分类模型训练
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号