摘要
本发明提供一种基于多模态大模型的图像质量评价系统和方法,包括:输入模块:用于接收输入图像和文本描述;视觉编码器:将所述输入图像转换为视觉特征编码;文本编码器:将所述文本描述转换为文本嵌入特征;多尺度特征抽象器:从所述视觉特征编码提取出多尺度特征,并与所述文本嵌入特征合并;任务处理模块:根据任务类型,完成质量分数量化、质量描述、质量标注区域的一种或者多种;输出模块:将所述任务处理模块的处理结果输出。本发明构建统一的多模态框架:将图像的质量分数量化,质量损失描述以及质量损失区域标注任务整合到一个统一的多模态大模型中,实现多任务的协同处理。
技术关键词
视觉特征编码
多尺度特征
评价系统
嵌入特征
融合特征
多模态
图像
文本编码器
解码器
输出模块
自然语言文本
输入模块
处理器
评价方法
跨模态
多任务
蒸馏
可读存储介质
系统为您推荐了相关专利信息
多角度摄像装置
实时视频图像
煤矿输送带
图像去噪算法
融合特征
多阶段特征
体积特征
结构磁共振
分类方法
多尺度特征提取
外啮合齿轮泵
故障诊断方法
多模态
融合特征
故障类别
辅助监理机器人
卷积神经网络模型
点云模型
监理方法
数据
分类方法
特征提取网络
嵌入特征
原型
无标签数据