摘要
本发明公开了一种基于跨模态融合网络的美学作品评价方法、系统及产品,首先使用深度神经网络为待评价美学作品图像生成结构化文本描述,作为文本模态;然后将文本模态和待评价美学作品图像同时输入跨模态融合网络中,基于文本编码器将文本描述映射为语义嵌入向量,基于图像编码器将图像分块后映射为视觉特征向量;所述语义嵌入向量和语义嵌入向量,经过多头双向交叉注意力模块后输出融合特征向量;最后所述融合特征向量输入回归器中,输出评价结果。本发明通过跨模态融合显著提升了模型的可解释性与鲁棒性,及评估的准确性。
技术关键词
作品评价方法
跨模态
美学
注意力
文本编码器
图像编码器
计算机程序指令
语义
深度神经网络
色彩
分支
线条
视觉
结构编码器
关系
分块
评价系统
系统为您推荐了相关专利信息
语音转换方法
通道注意力机制
声学特征
声码器
特征提取模块
可见光图像
拉普拉斯金字塔
编码器
注意力
多模态
程度预测方法
花生
随机森林模型
注意力机制
高分辨率卫星
网络流量信息
检测模型构建方法
交互性
多层次
门控制模块