基于多模态语言模型自动生成图像的视觉认知评估方法

正文

推荐专利

申请号：CN202510369172

申请日期：2025-03-27

公开号：CN120203519B

公开日期：2025-12-16

类型：发明专利

摘要

本申请涉及一种基于多模态语言模型自动生成图像的视觉认知评估方法。所述方法包括：首先，获取初始图像组成图像识别数据库，采用视觉语言模型扩充所述图像识别数据库，之后，基于当前评估任务从所述图像识别数据库中选择对应图像组成试题，之后，基于所述试题采用语音生成模块生成语音提示，对主体进行视觉认知测试，最后，将视觉认知测试结果输入视觉语言模型生成视觉认知评估报告。通过VLM视觉语言模型自动生成精准的图像描述以及利用语义微调技术生成视觉差异较大但语义差异微小的高精度的相似语义图像，实现了图像知识库的动态扩充以及针对视觉语义细微差异的精准评估，显著降低了人工成本并提高了知识库内容的质量和丰富性。

技术关键词

认知评估方法视觉多模态图像生成语音正确率语义文本微调技术大语言模型评估装置测试题报告图片处理器计算机设备输出模块可读存储介质

系统为您推荐了相关专利信息

基于轻图与4D毫米波雷达的多传感器融合行车建图方法

传感器融合建图方法坐标系端点雷达点云数据

光伏板缺陷检测方法、存储介质和电子设备

可见光图像热成像样本融合特征缺陷类别

一种超远离岸距离的实时数据稳定传输方法及系统

稳定传输方法多模态特征融合信道估计实时数据传输传输路径

联机签名的认证方法、装置、计算机设备、计算机可读存储介质和计算机程序产品

静态特征提取动态特征提取元素待认证计算机程序产品

一种提高快速记忆力和记忆桩纠错的训练方法及系统

记忆输入模块纠错文本控制模块

基于多模态语言模型自动生成图像的视觉认知评估方法

站点导航

APP 下载