摘要
本申请公开了一种基于检索增强生成的具身场景问答方法、装置及电子设备,属于人工智能技术领域。方法包括:从场景图中匹配满足问题信息的目标对象;根据目标对象在场景图中的视觉信息生成目标对象的场景描述信息;将场景描述信息和问题信息输入至语言模型中,得到语言模型输出的针对问题信息的回复信息。本申请实施例基于检索增强技术通过从场景图中检索出与问题相关的目标对象,然后将目标对象在场景图中的视觉感知信息转换为自然语言信息,并将这些信息作为语言模型的上下文输入,以增强语言模型对问题信息的理解和回答能力,即使遇到需要复杂推理的问答,也可以得到更加准确地答案,从而提高问答的准确性。
技术关键词
场景
三元组
对象
问答方法
非暂态计算机可读存储介质
自然语言信息
视觉
实体
电子设备
问答装置
人工智能技术
处理器
答案
匹配模块
输入模块
关系
存储器
模板
程序
系统为您推荐了相关专利信息
测试案例生成方法
格式模板
模型预测值
资产
金字塔模型
自动布局方法
自动布局装置
深度强化学习算法
监督学习算法
多任务
数字孪生模型
SPARQL查询
服务器主机
样本
DBSCAN密度聚类
聚类算法
协同进化算法
分布估计算法
集合策略
停滞现象