视觉语言模型的训练方法、推理方法、系统、电子设备、存储介质及程序产品

正文

推荐专利

申请号：CN202510786859

申请日期：2025-06-12

公开号：CN120316554B

公开日期：2025-11-14

类型：发明专利

摘要

本公开提供了一种视觉语言模型的训练方法、推理方法、系统、电子设备、存储介质及程序产品。视觉语言模型包括：视觉编码器、投影层、文本分词器、大语言模型，训练方法包括：构建针对人脸属性感知的第一训练数据集；基于第一训练数据集对视觉语言模型进行第一阶段训练，以更新视觉编码器和投影层的参数，第一阶段训练用于使视觉语言模型具备人脸属性感知功能；构建包括面向穿戴属性的问答数据样本、面向外貌属性的问答数据样本以及面向表情属性的问答数据样本的第二训练数据集；基于第二训练数据集对视觉语言模型进行第二阶段训练，以更新投影层和大语言模型的参数，第二阶段训练用于使视觉语言模型具备面向人脸属性提供针对性反馈的功能。

技术关键词

人脸属性大语言模型推理方法文本视觉特征计算机可执行指令数据样本图像采集设备电子设备推理系统训练系统风格图像获取单元画像处理器参数

系统为您推荐了相关专利信息

一种工程质量风险隐患智能评级方法及系统

智能评级方法风险数据文本分词

数据库语句生成方法、装置、设备、介质和程序产品

大语言模型字段校验信息语句样本集生成数据库

一种数据处理方法、装置、设备及介质

标签模态特征文本特征提取模块图像

票据信息识别方法、装置、设备及存储介质

票据信息识别方法文字内容信息多模态图像处理模块计算机可读指令

基于图像的模型生成方法、装置、设备及存储介质

编码特征模型生成方法图像特征点信息点云模型

视觉语言模型的训练方法、推理方法、系统、电子设备、存储介质及程序产品

站点导航

APP 下载