摘要
本申请提出一种面向多模态多语言信息的歧视检测方法及装置,其中,方法包括:采用ViT图像编码器和XLM‑R文本编码器分别提取图像和多语言文本特征,并通过交叉注意力机制实现模态间深度交互,生成多模态融合特征,全面捕捉图像与文本之间的细粒度关联;采用LoRA微调技术冻结预训练模型的图像和文本编码器,仅对分类器进行低秩参数优化,显著降低计算资源需求;引入动态记忆机制,通过检索历史样本信息和动态融合当前特征,增强模型对复杂歧视信号的识别能力,并对新输入的数据进行精准预测。本申请突破了现有方法的语言局限性,可在多语言、多文化背景下实现歧视信号的精准检测,填补了多模态歧视检测在多语言环境中的空白。
技术关键词
融合特征
文本编码器
分类器
图像编码器
多模态
交叉注意力机制
交互特征
样本
嵌入特征
记忆机制
矩阵
多语言
门控循环单元
模态特征
动态
预训练模型
数据
系统为您推荐了相关专利信息
心电特征
心电数据分析方法
深度学习网络
列表
融合特征
行人检测方法
二次特征
多光谱
注意力机制
行人检测模型
电梯机械部件
长短期记忆网络
风险预警方法
电梯传感器
电梯轿厢
磁共振成像方法
生物物理参数
医用磁共振
定量磁共振
成像仪