多模态意图识别方法及系统

正文

推荐专利

多模态意图识别方法及系统

申请号：CN202510726589

申请日期：2025-06-03

公开号：CN120654178A

公开日期：2025-09-16

类型：发明专利

摘要

本发明涉及多模态意图识别方法及系统，文本、视频和音频模态的特征分别进行时域和频域增强，经拼接得到非语言模态融合特征，结合原始文本特征，分别建模音频‑文本与视频‑文本的时间同步关系，通过上下文对齐处理得到标准化的音频特征、视频特征和文本特征；融合标准化的三种模态的特征，得到融合后的特征向量，并映射回文本模态空间与原始文本特征加权残差连接得到融合语义向量；从融合语义向量中抽取全局语义锚点与掩码位置，与原始文本特征和融合语义向量拼接，得到输入特征；利用输入特征得到多意图类别的概率分布。能够支持三类异构模态输入，并通过细粒度语义监督与增强策略提升意图识别的准确性与鲁棒性。

技术关键词

音频特征意图识别方法融合语义文本特征加权融合特征视频多模态意图类别时间同步样本矩阵多头注意力机制交互注意力 LSTM模型锚点加权残差感知特征

多模态意图识别方法及系统

站点导航

APP 下载