一种面向应急场景的多模态语义对齐方法

正文

推荐专利

一种面向应急场景的多模态语义对齐方法

申请号：CN202511090234

申请日期：2025-08-05

公开号：CN120996191A

公开日期：2025-11-21

类型：发明专利

摘要

本发明涉及自然语言处理技术领域，公开了一种面向应急场景的多模态语义对齐方法，包括获取多模态数据，并将多模态数据中的方言词汇映射至标准语系；使用多语言预训练模型生成文本/语音中初始语义向量；基于目标检测模型识别图像/视频中的特征要素，生成结构化视觉语义标签并嵌入向量；基于跨语言对抗训练消除文本/语音中初始语义向量中的语言特征，生成语言无关的语义向量；基于跨模态对比学习计算语言无关的语义向量与视觉向量的相似度，通过三重损失函数优化模态间距离；同时更新跨语言对抗训练和跨模态对比学习的参数，最小化总损失函数。解决了现有技术中多方言环境下多模态信息处理的难题，提高应急响应的效率和准确性。

技术关键词

语义向量方言词汇对齐方法损失函数优化预训练模型文本语义标签场景多语言视觉语音识别系统样本跨模态多模态特征处理器参数

系统为您推荐了相关专利信息

一种基于深度学习的工业CT图像的超分辨率重建方法

工业CT图像生成高分辨率残差模块卷积滤波器峰值信噪比

提示表示解析的红外和可见光图像融合方法

可见光图像融合方法风格重构矩阵

一种基于路径跟踪的行人重识别方法

重识别方法图像行人重识别视频预训练模型

一种融合立面特征与语义引导的无人机遥感图像三维场景重建方法

三维场景重建方法无人机遥感图像高斯模糊图像语义像素点

事件抽取方法、装置及电子设备

语义向量事件抽取方法文本非易失性存储介质标签

一种面向应急场景的多模态语义对齐方法

站点导航

APP 下载