摘要
本发明涉及一种基于外部知识增强和语义一致的视觉对话方法和设备,方法包括:根据获取的图像、历史对话文本和当前问题文本,通过提取域内视觉对象间的关联关系和域内文本词汇间的关联关系构建多模态场景图,通过提取常识知识三元组构建常识知识库;基于常识知识库,对多模态场景图进行扩展并进行关系增强学习,得到关联增强节点的特征;利用预训练的大语言模型获取实例级表征,基于关联增强节点的特征得到文本常识级表征,针对实例级表征和常识级表征进行特征融合,得到全局的融合特征;基于融合特征,通过推理得到视觉对话的答案。本发明能够细致挖掘语义关联,使得多轮视觉对话在精准度、丰富性和全面性方面均有显著提升。
技术关键词
对话方法
文本
视觉
场景
融合特征
答案
语义
隐式特征
关系
图像
卷积神经网络提取
三元组
对象
多模态特征
排序损失
节点特征
序列
编码
系统为您推荐了相关专利信息
教学试题
梅尔频率倒谱系数
语义图谱
管理方法
成绩
谣言检测方法
语义特征
注意力机制
矩阵
融合特征
车辆辅助驾驶方法
驾驶员监控
车辆辅助驾驶装置
考试场景
规划
语音识别文本
语音翻译方法
错误校正
语音识别模型
大语言模型
信息检索方法
多任务学习模型
构建企业关系
意图
关系网络图