摘要
本发明涉及人工智能技术领域,适用于金融和医疗等场景,公开了视觉语言模型适配方法、装置、计算机设备及存储介质,该方法包括:获取多个场景的任务数据,利用任务数据对视觉语言模型进行预训练,并通过视觉语言模型对多个场景的任务数据提取初始联合语义特征;采用轻量适配器对每一场景注入场景相关参数,并结合初始联合语义特征融合得到场景特征;采用动态路由机制预测场景权重,并基于场景特征和场景权重融合得到融合特征;利用跨模态语义对融合特征进行映射,并通过任务解码器对融合特征进行解码输出。本发明实现了一种基于任务‑场景解耦的轻量适配结构,通过该适配结构能够有效提升视觉语言模型在多场景任务中的迁移能力。
技术关键词
融合特征
语义特征
场景特征
视觉
解码器
语言编码器
跨模态
适配器
多层感知机
计算机设备
数据编码
可读存储介质
适配装置
参数
图像
人工智能技术
系统为您推荐了相关专利信息
手工特征
多源特征融合
多模态
样本
音频数据处理
多模态生理
注意力
评估系统
单应性变换矩阵
注视点
图像修复方法
斑石鲷
图像修复模型
注意力机制
生成高质量图像
多模态特征
场景
计算机程序指令
特征提取模型
语义特征