摘要
本发明公开了一种基于对比学习的多级跨模态对齐方法,用于提高多模态情感分析的准确性和效率。该方法通过利用RoBERTa模型和Vision Transformer模型分别对文本和图像进行编码,获取文本和图像表示。全局跨模态对齐模块采用对比学习技术对文本和图像的表示进行对齐,以增强两者之间的一致性。此外,通过局部跨模态对齐模块,使用交叉注意力机制对文本和图像表示进行细粒度对齐,以识别关联图像和文本中较小、更具体的语义单元。该方法采用多任务学习框架整合来自文本和图像的跨模态信息,并通过条件随机场进行序列标签预测,识别和分类方面术语和情感。实验结果表明,该方法在Twitter‑2015和Twitter‑2017数据集上的性能优于现有的单模态和多模态模型,有效地提高了多模态情感分析的性能。
技术关键词
跨模态
对齐方法
交叉注意力机制
条件随机场
文本编码器
对齐模块
图像编码器
术语
大规模文本数据
多模态情感分析
多层感知机
多任务
标签
样本
序列
系统为您推荐了相关专利信息
智能家居控制方法
多模态
智能家居控制系统
设备资源管理
实时数据
异常分析方法
注意力机制
监督学习算法
知识图谱数据库
跨模态
多路并行数据
模数转换芯片
数据对齐方法
时钟
模块