摘要
本发明提出了一种基于视觉指令微调与演示学习增强的多模态讽刺检测方法。该方法将传统的讽刺检测任务重新定义为生成任务,利用生成式多模态大语言模型的强大跨模态交互能力。通过设计指令模板和检索模块,模型能够更好地理解任务目标,并从训练集中检索与输入样本相似的示例作为提示信息,从而提高检测性能。此外,提出了新的测试数据集RedEval,用于评估模型在不同场景下的泛化能力。该方法提高了多模态讽刺检测的准确性和泛化能力,推动了多模态理解和处理技术在复杂情感分析领域的应用。
技术关键词
大语言模型
文本编码器
图像编码器
样本
视觉特征
社交媒体平台
多模态
标签
指令
格式化
多层感知器
微调方法
图像嵌入
图像组合
传播算法
参数
数据
系统为您推荐了相关专利信息
可见光图像
故障识别方法
数据
深度学习算法
样本
残差神经网络
室内指纹定位方法
残差模块
优化网络参数
链路