视觉语言模型适配方法、装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202510734393

申请日期：2025-05-30

公开号：CN120671768A

公开日期：2025-09-19

类型：发明专利

摘要

本发明涉及人工智能技术领域，适用于金融和医疗等场景，公开了视觉语言模型适配方法、装置、计算机设备及存储介质，该方法包括：获取多个场景的任务数据，利用任务数据对视觉语言模型进行预训练，并通过视觉语言模型对多个场景的任务数据提取初始联合语义特征；采用轻量适配器对每一场景注入场景相关参数，并结合初始联合语义特征融合得到场景特征；采用动态路由机制预测场景权重，并基于场景特征和场景权重融合得到融合特征；利用跨模态语义对融合特征进行映射，并通过任务解码器对融合特征进行解码输出。本发明实现了一种基于任务‑场景解耦的轻量适配结构，通过该适配结构能够有效提升视觉语言模型在多场景任务中的迁移能力。

技术关键词

融合特征语义特征场景特征视觉解码器语言编码器跨模态适配器多层感知机计算机设备数据编码可读存储介质适配装置参数图像人工智能技术

系统为您推荐了相关专利信息

一种基于视觉识别的分拣系统

分拣系统楔块板体驱动组件视觉

基于多模态对比学习的智能抑郁症检测方法

手工特征多源特征融合多模态样本音频数据处理

基于多模态生理特征融合的数字人直播注意力评估系统

多模态生理注意力评估系统单应性变换矩阵注视点

一种基于扩散模型的密集鱼群遮挡图像修复方法

图像修复方法斑石鲷图像修复模型注意力机制生成高质量图像

场景生成与交互方法、装置、电子设备、介质和程序产品

多模态特征场景计算机程序指令特征提取模型语义特征

视觉语言模型适配方法、装置、计算机设备及存储介质

站点导航

APP 下载