视觉语言模型适配方法、装置、计算机设备及存储介质

AITNT
正文
推荐专利
视觉语言模型适配方法、装置、计算机设备及存储介质
申请号:CN202510734393
申请日期:2025-05-30
公开号:CN120671768A
公开日期:2025-09-19
类型:发明专利
摘要
本发明涉及人工智能技术领域,适用于金融和医疗等场景,公开了视觉语言模型适配方法、装置、计算机设备及存储介质,该方法包括:获取多个场景的任务数据,利用任务数据对视觉语言模型进行预训练,并通过视觉语言模型对多个场景的任务数据提取初始联合语义特征;采用轻量适配器对每一场景注入场景相关参数,并结合初始联合语义特征融合得到场景特征;采用动态路由机制预测场景权重,并基于场景特征和场景权重融合得到融合特征;利用跨模态语义对融合特征进行映射,并通过任务解码器对融合特征进行解码输出。本发明实现了一种基于任务‑场景解耦的轻量适配结构,通过该适配结构能够有效提升视觉语言模型在多场景任务中的迁移能力。
技术关键词
融合特征 语义特征 场景特征 视觉 解码器 语言编码器 跨模态 适配器 多层感知机 计算机设备 数据编码 可读存储介质 适配装置 参数 图像 人工智能技术
系统为您推荐了相关专利信息
1
一种基于视觉识别的分拣系统
分拣系统 楔块 板体 驱动组件 视觉
2
基于多模态对比学习的智能抑郁症检测方法
手工特征 多源特征融合 多模态 样本 音频数据处理
3
基于多模态生理特征融合的数字人直播注意力评估系统
多模态生理 注意力 评估系统 单应性变换矩阵 注视点
4
一种基于扩散模型的密集鱼群遮挡图像修复方法
图像修复方法 斑石鲷 图像修复模型 注意力机制 生成高质量图像
5
场景生成与交互方法、装置、电子设备、介质和程序产品
多模态特征 场景 计算机程序指令 特征提取模型 语义特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号