摘要
本申请提供一种基于多模态输入的查询方法、装置、设备、介质及产品。本申请通过由语言模型在接收到包括文本类查询语句和图像类辅助信息的多模态查询指令的情况下,基于多模态查询指令所包括的图像类辅助信息进行图像识别,以从图像类辅助信息中获取待查询的文本内容,从而调用预先配置好的查询工具,根据待查询的文本内容和文本类查询语句获取多模态查询指令对应的查询结果。通过本申请的实施例提供的技术方案,无需用户手动输入即可实现对图像类辅助信息中相关文本内容的获取,操作简便,从而可以提高查询效率,而且可以通过语言模型将输入都转换为文本形式,以基于文本形式的输入达到基于多模态输入的查询效果。
技术关键词
多模态
文本
语句
查询方法
参数
指令
图像
处理器
可读存储介质
查询装置
计算机程序产品
识别模块
存储器
对象
系统为您推荐了相关专利信息
监测管理系统
钢筋抗拉强度
混凝土抗压强度
参数
时序特征