摘要
一种多模态对话状态追踪方法,本发明涉及自然语言处理在任务型对话领域,其旨在解决利用文本与图像的多种模态信息来追踪和预测对话状态多模态信息利用及融合不充分,缺乏先验知识技术问题。本发明方法主要包括场景筛选,利用文本模态信息筛选图像切片;模式图初始化,文本视觉先验知识初始模式图,并进行初步融合;隐藏向量计算,将对话上下文及筛选后的上下文经由模式图计算得到用于预测状态的隐藏向量;对话状态预测,将各模式图的隐藏向量融合后,预测对话状态及对话意图。本发明用于提供对话状态预测方法。
技术关键词
多模态对话
追踪方法
文本
卷积神经网络融合
图像编码器
生成场景图像
切片
状态预测方法
预训练语言模型
节点
多模态信息
维基百科
预训练模型
意图
分类器
自然语言
系统为您推荐了相关专利信息
监控统计方法
高等院校
文本
深度语义模型
精确地识别
图像地理定位方法
街景
图像编码器
跨模态
查询特征
服务监控方法
大语言模型
自然语言分析
文本
服务监控装置
图像多模态
样本
文本编码器
检索系统
特征向量空间
预训练模型
噪声预测
编辑
人脸身份
残差注意力机制