摘要
本发明涉及网络安全与人工智能技术领域,公开了一种基于嵌入大语言模型的多模态模因有害性检测方法及装置。所述方法包括:从多模态模因图像获取视觉描述文本后与原始文本进行数据增强;提取多模态模因图像的视觉特征以及增强文本的文本特征,将文本特征映射至与视觉特征匹配的特征空间,实现跨模态对齐,对视觉特征与文本特征进行融合得到融合特征;通过 MoE 混合专家分类模型对融合特征进行处理,输出多模态模因有害性概率。应用本发明可以实现高精度、高鲁棒性、低成本的多模态模因有害性检测。
技术关键词
大语言模型
性检测方法
视觉特征
融合特征
多模态
跨模态
视频编码器
计算机存储介质
双向注意力
性检测装置
图像
文本编码器
网络
人工智能技术
对齐模块
矩阵
元素
系统为您推荐了相关专利信息
视频帧集合
特征提取模型
分类神经网络
服饰
视角
车辆状态预测
智能网联车辆
超声波传感器数据
粒子群优化算法
多传感器
卫星遥感影像
语义理解模型
图文检索方法
跨模态
多尺度
图像块特征
序列特征
图像处理模型
编码特征
权重特征