摘要
本发明公开了一种基于因果推理与跨模态匹配的舞蹈服饰道具检索方法,在匹配任务中,由模型计算服饰道具图像与文本匹配特征的相似度,依阈值判断是否匹配;检索任务时,计算查询文本与图像特征集合的相似度并排序取结果。计算特征和相似度过程如下:首先,用Faster R‑CNN提取图像多尺度视觉特征,BERT提取文本多粒度语义特征;接着,两类特征分别经自注意力和门控融合后输入Transformer层,得到最终视觉和文本表示;然后,对两种表示进行多头注意力计算,合并序列后再自注意力计算,得到匹配特征;最后,以两特征向量点积除以模长积计算相似度。本发明可提升舞蹈服饰道具的匹配准确性。
技术关键词
舞蹈服饰
检索方法
服饰道具
文本
注意力
视觉特征
语义特征
图像匹配
三元组损失函数
图像多尺度
BERT模型
矩阵
元素
序列
网络
关系
参数