基于多模态语言模型自动生成图像的视觉认知评估方法

AITNT
正文
推荐专利
基于多模态语言模型自动生成图像的视觉认知评估方法
申请号:CN202510369172
申请日期:2025-03-27
公开号:CN120203519B
公开日期:2025-12-16
类型:发明专利
摘要
本申请涉及一种基于多模态语言模型自动生成图像的视觉认知评估方法。所述方法包括:首先,获取初始图像组成图像识别数据库,采用视觉语言模型扩充所述图像识别数据库,之后,基于当前评估任务从所述图像识别数据库中选择对应图像组成试题,之后,基于所述试题采用语音生成模块生成语音提示,对主体进行视觉认知测试,最后,将视觉认知测试结果输入视觉语言模型生成视觉认知评估报告。通过VLM视觉语言模型自动生成精准的图像描述以及利用语义微调技术生成视觉差异较大但语义差异微小的高精度的相似语义图像,实现了图像知识库的动态扩充以及针对视觉语义细微差异的精准评估,显著降低了人工成本并提高了知识库内容的质量和丰富性。
技术关键词
认知评估方法 视觉 多模态 图像 生成语音 正确率 语义 文本 微调技术 大语言模型 评估装置 测试题 报告 图片 处理器 计算机设备 输出模块 可读存储介质
系统为您推荐了相关专利信息
1
基于轻图与4D毫米波雷达的多传感器融合行车建图方法
传感器融合 建图方法 坐标系 端点 雷达点云数据
2
光伏板缺陷检测方法、存储介质和电子设备
可见光图像 热成像 样本 融合特征 缺陷类别
3
一种超远离岸距离的实时数据稳定传输方法及系统
稳定传输方法 多模态特征融合 信道估计 实时数据传输 传输路径
4
联机签名的认证方法、装置、计算机设备、计算机可读存储介质和计算机程序产品
静态特征提取 动态特征提取 元素 待认证 计算机程序产品
5
一种提高快速记忆力和记忆桩纠错的训练方法及系统
记忆 输入模块 纠错 文本 控制模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号