摘要
本申请公开了面向视觉语言模型的模型推理方法、装置、设备及介质,涉及模型推理领域,包括:基于语义引导网络、初始视觉语言模型、视觉样本以及与文本描述确定初始单步问题集,并对初始单步问题集进行优化,得到目标单步问题集;利用目标单步问题集、预设语义扩展策略以及预设问题推理策略确定目标多步问题集;基于目标单步问题集、目标多步问题集以及所述初始视觉语言模型确定训练样本集和第一微调后模型;利用混合掩码策略对第一微调后模型进行微调,得到第二微调后模型;将第二微调后模型进行蒸馏,利用训练样本集对得到的蒸馏模型进行训练,以利用得到的目标视觉语言模型触发模型推理。因此,本申请能够提高视觉语言模型的模型推理能力。
技术关键词
视觉
实体
掩码策略
推理方法
文本
逻辑递进关系
语义
蒸馏
训练样本集
跨模态
推理装置
学生
微调单元
网络
模块
解析单元
教师
系统为您推荐了相关专利信息
兴趣
个性化商品
社交关系图谱
飞蛾扑火算法
商品推荐列表
机器人作业
关键帧
语义特征
语言知识库
语言编码器
地面移动机器人
关键帧
导航方法
机器人基坐标系
相机