摘要
本发明涉及自然语言处理技术领域,公开了一种面向应急场景的多模态语义对齐方法,包括获取多模态数据,并将多模态数据中的方言词汇映射至标准语系;使用多语言预训练模型生成文本/语音中初始语义向量;基于目标检测模型识别图像/视频中的特征要素,生成结构化视觉语义标签并嵌入向量;基于跨语言对抗训练消除文本/语音中初始语义向量中的语言特征,生成语言无关的语义向量;基于跨模态对比学习计算语言无关的语义向量与视觉向量的相似度,通过三重损失函数优化模态间距离;同时更新跨语言对抗训练和跨模态对比学习的参数,最小化总损失函数。解决了现有技术中多方言环境下多模态信息处理的难题,提高应急响应的效率和准确性。
技术关键词
语义向量
方言词汇
对齐方法
损失函数优化
预训练模型
文本
语义标签
场景
多语言
视觉
语音识别系统
样本
跨模态
多模态特征
处理器
参数
系统为您推荐了相关专利信息
工业CT图像
生成高分辨率
残差模块
卷积滤波器
峰值信噪比
三维场景重建方法
无人机遥感图像
高斯模糊图像
语义
像素点
语义向量
事件抽取方法
文本
非易失性存储介质
标签