摘要
本发明公开了一种图像质量评价及数据集构建方法、系统、设备及介质,它们是相对应的方案,方案中:通过一个统一框架同时解决全局与局部质量描述、像素级定位和区域指涉问题,避免了传统方法中模型间的不一致性和信息冗余,实现了不同粒度任务间的高效协同;并且采用两阶段优化策略后,模型不仅能够生成高质量文本描述,还能通过文本到点策略高效地将文本中隐含的位置信息映射为实际像素坐标,从而实现精确的局部失真区域定位。此外,模型保留了大语言模型的强大指令遵循能力,同时在细粒度定位任务上通过隐式文本到点策略达到零样本定位效果,这一设计兼顾了模型灵活性与精细化输出的要求。
技术关键词
文本
数据集构建方法
图像编码器
答案
多模态
两阶段
视觉
像素
评价系统
数据集构建系统
评价方法
策略
大语言模型
定位问题
坐标
多任务
处理器
可读存储介质
系统为您推荐了相关专利信息
漏洞管理系统
大语言模型
上下文特征
生成对抗网络
知识图谱构建
供应链管理方法
分块
数字化供应链管理系统
节点
密钥
多模态数据分析
图表生成方法
样本
元素
多模态特征融合