问答信息的生成及多模态大模型训练方法和装置

正文

推荐专利

申请号：CN202410796817

申请日期：2024-06-19

公开号：CN118586502A

公开日期：2024-09-03

类型：发明专利

摘要

本公开提供了问答信息的生成及多模态大模型训练方法和装置，涉及计算机视觉、深度学习以及大模型等人工智能领域，可应用于光学字符识别等场景。其中的问答信息的生成方法可包括：获取待处理的目标图像，目标图像中包括待解答的问题内容以及问题内容对应的配图；分别获取问题内容对应的文本模态信息以及配图对应的图像模态信息；结合文本模态信息以及图像模态信息，利用多模态大模型确定出问题内容对应的解答信息。

技术关键词

前馈神经网络多模态图像编码器转换文本视觉特征特征金字塔网络解码器深度残差网络融合特征光学字符识别序列模型训练方法位置编码信息图框模型训练模块图像获取模块多层感知机

系统为您推荐了相关专利信息

一种基于transformer的空压机故障预测方法和系统

故障预测模型空压机故障多模态数据融合融合特征文本特征向量

一种RAG多模态文档解析方法、设备及介质

多模态文档解析方法 Kubernetes集群分布式存储系统语义

基于视觉-语言大模型的经食道医疗图像分析系统及方法

图像分析系统图像分析方法跨模态关联学习自然语言文本视觉特征

一种协同多源遥感影像的城市绿地提取方法

协同多源遥感影像城市绿地提取方法局部细节特征图谱分类器

一种高低温循环作用下岩石破裂声发射信号智能识别方法

岩石破裂声发射智能识别方法模态特征波形时域特征岩石试件

问答信息的生成及多模态大模型训练方法和装置

站点导航

APP 下载