摘要
本申请涉及智能问答技术领域,其具体地公开了一种基于多模态大模型的问答数据处理方法及系统,其采用基于深度学习的多模态数据处理技术对用户输入的文本问题和图像模态上下文进行语义解析,分别提取出文本问题和图像模态上下文的语义特征,接着对两者进行线性投影以实现特征对齐,并引入跨模态特征全域关联交互机制,挖掘文本问题与图像模态上下文之间的深层次语义关联,实现对文本问题和图像模态上下文信息的有效融合,进而利用大语言模型的推理能力,生成与文本问题相关的文本答案。通过这种方式,能够显著提高问答系统对多模态信息的理解和处理能力,生成与文本问题紧密相关且逻辑完整的文本答案,满足用户对于多模态问答场景下的信息需求。
技术关键词
编码向量
问答数据处理方法
上下文特征
语义
内核
跨模态
答案
文本编码器
图像编码器
大语言模型
智能问答技术
卷积神经网络模型
多模态信息
问答场景
数据处理系统
交互机制