摘要
本发明提供一种考虑文本语境的图像质量评估方法,包括:获取待评估图像以及所述待评估图像的文本描述;通过多模态特征提取模块分别对所述待评估图像以及所述文本描述进行特征提取,对应获得图像特征、文本特征;通过局部增强模块对所述图像特征与所述文本特征进行交互融合,以获得语义掩码,并基于所述语义掩码对所述图像特征进行区域感知增强,以获得增强后图像特征;通过质量回归模块对所述增强后图像特征以及所述图像特征进行拼接并评估,以获得第一感知质量分数。本发明能够显式强化与文本语义相关区域的质量信息,从而更贴合真实主观评分行为,提升了多模态场景下图像质量评估的准确性与可靠性。
技术关键词
特征提取模块
语义
文本编码器
视觉特征
多模态
紧凑特征
图像编码器
子模块
融合特征
特征提取单元
数据获取单元
处理器
评估装置
注意力机制
跨模态
可读存储介质
系统为您推荐了相关专利信息
光谱显微镜
光谱成像组件
荧光激发光源
多模态
准直透镜
题目推荐方法
大语言模型
知识点
学生学习状态
标签