摘要
本发明涉及城市轨道交通领域的多模态问答模型训练方法与系统,属于城市轨道交通技术领域,包括:从城市轨道交通领域数据中提取出图像和文本;根据提取出的图像和文本构建图像‑文本问题对;提取出图像‑文本问题对的图像特征和文本特征;将图像特征和文本特征进行融合形成融合后的特征;利用融合后的特征训练神经网络模型得到多模态问答模型;利用多模态问答模型回答用户在城市轨道交通领域的提问。本发明通过融合图像和文本特征能够提供更加丰富和多维的信息表示,通过多模态融合,可以显著提升模型的性能,尤其是在复杂任务上,可以弥补单一模态的信息不足,从而提高问答系统的准确性和鲁棒性。
技术关键词
问答模型训练方法
像素点
文本
图像
训练神经网络模型
多模态
城市轨道交通技术
处理器
特征提取模块
收发器
问答系统
数据获取模块
训练系统
存储器
可读存储介质
鲁棒性
系统为您推荐了相关专利信息
控制图像采集装置
手写字符识别系统
语义分割网络
生成对抗网络
矩形包围框