摘要
本公开提供了一种视觉语言模型的训练方法、推理方法、系统、电子设备、存储介质及程序产品。视觉语言模型包括:视觉编码器、投影层、文本分词器、大语言模型,训练方法包括:构建针对人脸属性感知的第一训练数据集;基于第一训练数据集对视觉语言模型进行第一阶段训练,以更新视觉编码器和投影层的参数,第一阶段训练用于使视觉语言模型具备人脸属性感知功能;构建包括面向穿戴属性的问答数据样本、面向外貌属性的问答数据样本以及面向表情属性的问答数据样本的第二训练数据集;基于第二训练数据集对视觉语言模型进行第二阶段训练,以更新投影层和大语言模型的参数,第二阶段训练用于使视觉语言模型具备面向人脸属性提供针对性反馈的功能。
技术关键词
人脸属性
大语言模型
推理方法
文本
视觉特征
计算机可执行指令
数据
样本
图像采集设备
电子设备
推理系统
训练系统
风格
图像获取单元
画像
处理器
参数
系统为您推荐了相关专利信息
大语言模型
字段
校验信息
语句样本集
生成数据库
票据信息识别方法
文字内容信息
多模态
图像处理模块
计算机可读指令
编码特征
模型生成方法
图像
特征点信息
点云模型