摘要
本发明公开了一种多模态融合的问答方法、装置、电子设备及存储介质,用于解决现有的多模态问答系统准确率较低、泛化性较差的技术问题。本发明包括:接收多模态输入问题;从所述多模态输入问题中提取问题、辅助文本、表格和图像;对所述图像进行图像标注,得到标注文本;采用表格线性化对所述表格进行文本模态转换,得到表格文本;采用所述辅助文本、所述图像和所述表格文本进行中间推理,得到推理文本;将所述问题、所述推理文本、所述标注文本和所述表格文本进行拼接,得到输入文本;将所述输入文本输入预训练的大语言模型,输出所述多模态输入问题的答案。
技术关键词
文本
表格
多模态
问答方法
图像
视觉特征
语言编码器
子模块
光学字符识别
存储程序代码
电子设备
答案
可读存储介质
问答装置
问答系统
拼接模块
处理器
存储器
计算机
系统为您推荐了相关专利信息
光热光动力
光动力联合治疗
光动力治疗药物
高光热转换效率
两性离子化合物
识别飞机
文本识别模型
标识识别方法
多模态特征融合
融合特征
多模态
情感识别模型
超参数
互动方法
训练深度学习模型
智能焊接机器人
桁架
协作机构
滑动架
图像采集摄像头