一种面向应急场景的多模态语义对齐方法

AITNT
正文
推荐专利
一种面向应急场景的多模态语义对齐方法
申请号:CN202511090234
申请日期:2025-08-05
公开号:CN120996191A
公开日期:2025-11-21
类型:发明专利
摘要
本发明涉及自然语言处理技术领域,公开了一种面向应急场景的多模态语义对齐方法,包括获取多模态数据,并将多模态数据中的方言词汇映射至标准语系;使用多语言预训练模型生成文本/语音中初始语义向量;基于目标检测模型识别图像/视频中的特征要素,生成结构化视觉语义标签并嵌入向量;基于跨语言对抗训练消除文本/语音中初始语义向量中的语言特征,生成语言无关的语义向量;基于跨模态对比学习计算语言无关的语义向量与视觉向量的相似度,通过三重损失函数优化模态间距离;同时更新跨语言对抗训练和跨模态对比学习的参数,最小化总损失函数。解决了现有技术中多方言环境下多模态信息处理的难题,提高应急响应的效率和准确性。
技术关键词
语义向量 方言词汇 对齐方法 损失函数优化 预训练模型 文本 语义标签 场景 多语言 视觉 语音识别系统 样本 跨模态 多模态特征 处理器 参数
系统为您推荐了相关专利信息
1
一种基于深度学习的工业CT图像的超分辨率重建方法
工业CT图像 生成高分辨率 残差模块 卷积滤波器 峰值信噪比
2
提示表示解析的红外和可见光图像融合方法
可见光图像 融合方法 风格 重构 矩阵
3
一种基于路径跟踪的行人重识别方法
重识别方法 图像 行人重识别 视频 预训练模型
4
一种融合立面特征与语义引导的无人机遥感图像三维场景重建方法
三维场景重建方法 无人机遥感图像 高斯模糊图像 语义 像素点
5
事件抽取方法、装置及电子设备
语义向量 事件抽取方法 文本 非易失性存储介质 标签
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号