摘要
本发明提供了一种基于对抗网络的图片数据增强和大模型的文本数据增强方法,通过对抗网络生成结构化差异较大的图片,并选取差异显著的图片作为扩充样本,同时利用大模型生成相似的文本内容扩展数据集;通过定义相似性度量函数,从生成的图片和文本中筛选出相似性高的图片和相似性低的文本,随机组合后形成新的增强数据集;使用多模态大模型对图片和文本进行编码并对齐,生成相关矩阵以便后续操作。本发明设计了三个模块处理讽刺检测,与事实不符合讽刺内容模块:通过通道加权策略和高斯分布模型处理与事实不符的讽刺内容;情感讽刺模块:通过共享参数的连体层学习跨模态情感信息,解决情感讽刺;先验知识文本讽刺检测模块:专门处理带文字图片及其对应文本,提高讽刺检测效率。
技术关键词
图片
相似性度量函数
文本特征向量
多模态
数据
视觉
注意力
词语
分类器
图像
语义层面
模块
跨模态
语义向量
矩阵
高斯分布模型
记忆存储器
BERT模型
系统为您推荐了相关专利信息
关键词提取模型
参数切换方法
表达式
制造执行系统
设备控制
云端服务器
空气质量监测数据
空气质量监测系统
支持向量回归模型
人工神经网络模型
图像生成方法
实例分割
文本
跨模态
图像生成装置
光强探测器
超表面
数据处理模块
点扩散函数
衬底层