视觉语言模型训练方法、设备、介质和计算机程序产品

AITNT
正文
推荐专利
视觉语言模型训练方法、设备、介质和计算机程序产品
申请号:CN202411001895
申请日期:2024-07-25
公开号:CN118520933B
公开日期:2024-09-17
类型:发明专利
摘要
本发明公开了一种视觉语言模型训练方法、设备、介质和计算机程序产品,涉及人工智能技术领域,该方法包括:获取查询图像和对应的标签,并生成查询图像的场景图;利用视觉语言模型中的视觉提示器基于场景图在图像集中筛选与查询图像最相似的目标图像;基于目标图像和可学习参数生成可学习提示词,将可学习提示词融合至目标图像和对应的标签中;将融合后的目标图像和对应的融合后的标签、查询图像输入视觉语言模型中得到查询图像的预测结果;根据预测结果和查询图像对应的标签计算损失值,基于损失值训练视觉提示器中的参数、可学习参数得到训练完成的视觉语言模型。本发明提升了视觉语言模型在上下文学习中的性能。
技术关键词
语言模型训练方法 视觉 文本 图像编码 提示器 语义 场景 对象 非易失性存储介质 标签 计算机程序产品 注意力机制 预训练模型 参数 关系 存储计算机程序 分词 人工智能技术
系统为您推荐了相关专利信息
1
一种无人值守智能式医疗档案管理存取系统
医疗档案管理 存取系统 状态监控模块 上下文感知技术 数据处理模块
2
一种功率磁心视觉检测装置及功率磁心检测分类系统
磁心 图像采集组件 视觉检测装置 检测分类系统 功率
3
一种精密镗铣床夹紧系统的多参数协同控制方法和装置
夹紧系统 模糊决策树 协同控制方法 电液比例阀 镗铣床
4
一种多模态大模型驱动的视频评论与画面精准匹配方法、系统
精准匹配方法 高维特征向量 多模态 文本 视频
5
一种基于病情推荐就诊科室的语音导航方法、装置及设备
语音导航方法 关键词 患者 语音导航装置 智能医疗技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号