问答信息的生成及多模态大模型训练方法和装置

AITNT
正文
推荐专利
问答信息的生成及多模态大模型训练方法和装置
申请号:CN202410796817
申请日期:2024-06-19
公开号:CN118586502A
公开日期:2024-09-03
类型:发明专利
摘要
本公开提供了问答信息的生成及多模态大模型训练方法和装置,涉及计算机视觉、深度学习以及大模型等人工智能领域,可应用于光学字符识别等场景。其中的问答信息的生成方法可包括:获取待处理的目标图像,目标图像中包括待解答的问题内容以及问题内容对应的配图;分别获取问题内容对应的文本模态信息以及配图对应的图像模态信息;结合文本模态信息以及图像模态信息,利用多模态大模型确定出问题内容对应的解答信息。
技术关键词
前馈神经网络 多模态 图像编码器 转换文本 视觉特征 特征金字塔网络 解码器 深度残差网络 融合特征 光学字符识别 序列 模型训练方法 位置编码信息 图框 模型训练模块 图像获取模块 多层感知机
系统为您推荐了相关专利信息
1
一种基于transformer的空压机故障预测方法和系统
故障预测模型 空压机故障 多模态数据融合 融合特征 文本特征向量
2
一种RAG多模态文档解析方法、设备及介质
多模态 文档解析方法 Kubernetes集群 分布式存储系统 语义
3
基于视觉-语言大模型的经食道医疗图像分析系统及方法
图像分析系统 图像分析方法 跨模态关联学习 自然语言文本 视觉特征
4
一种协同多源遥感影像的城市绿地提取方法
协同多源遥感影像 城市绿地提取方法 局部细节特征 图谱 分类器
5
一种高低温循环作用下岩石破裂声发射信号智能识别方法
岩石破裂声发射 智能识别方法 模态特征 波形时域特征 岩石试件
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号