摘要
本发明涉及一种基于文本提炼与多粒度对齐的CLIP的图像美学评价方法,属于图像处理以及计算机视觉领域。所述方法,利用现有的大语言模型对美学数据集中的用户评论进行文本提炼,从中分析并概括出与美学相关的核心描述,进而构建美学摘要数据集;其次,设计多粒度对齐的CLIP框架,基于该框架利用配对的图像‑详细评论‑美学摘要对原始的CLIP模型进行微调,使模型更好地理解美学领域中图像与文本描述之间的语义关系,从而学习到更加丰富的美学特征表示,获得针对美学任务的优化后的CLIP模型;最后,基于微调后的CLIP模型设计图像美学质量评价网络,以实现对图像美学质量的有效预测。本发明避免了跨模态美学评价方法在推理阶段需要同时输入图像文本对的问题。
技术关键词
图像美学评价方法
文本编码器
图像编码器
摘要
适配器
大语言模型
反向传播方法
数据
累积分布函数
矩阵
网络
计算机程序指令
美学特征
主成分分析方法
分支
输出特征
序列
系统为您推荐了相关专利信息
配电网运行状态
智能调度方法
历史运行数据
多任务神经网络
故障检测
文本摘要生成方法
GRU神经网络
动态纠错
Word2Vec模型
语义特征