摘要
本公开提供了问答信息的生成及多模态大模型训练方法和装置,涉及计算机视觉、深度学习以及大模型等人工智能领域,可应用于光学字符识别等场景。其中的问答信息的生成方法可包括:获取待处理的目标图像,目标图像中包括待解答的问题内容以及问题内容对应的配图;分别获取问题内容对应的文本模态信息以及配图对应的图像模态信息;结合文本模态信息以及图像模态信息,利用多模态大模型确定出问题内容对应的解答信息。
技术关键词
前馈神经网络
多模态
图像编码器
转换文本
视觉特征
特征金字塔网络
解码器
深度残差网络
融合特征
光学字符识别
序列
模型训练方法
位置编码信息
图框
模型训练模块
图像获取模块
多层感知机
系统为您推荐了相关专利信息
故障预测模型
空压机故障
多模态数据融合
融合特征
文本特征向量
多模态
文档解析方法
Kubernetes集群
分布式存储系统
语义
图像分析系统
图像分析方法
跨模态关联学习
自然语言文本
视觉特征
协同多源遥感影像
城市绿地提取方法
局部细节特征
图谱
分类器
岩石破裂声发射
智能识别方法
模态特征
波形时域特征
岩石试件