基于多模态大模型和思维链的图文问答方法、设备及介质

AITNT
正文
推荐专利
基于多模态大模型和思维链的图文问答方法、设备及介质
申请号:CN202510002641
申请日期:2025-01-02
公开号:CN119918673A
公开日期:2025-05-02
类型:发明专利
摘要
本发明公开了基于多模态大模型和思维链的图文问答方法、设备及介质,属于自然语言处理技术领域,本发明要解决的技术问题为如何提升复杂图文问答任务中的推理能力、答案的准确性以及可解释性,采用的技术方案为:收集图像以及与图像相关的问题文本;对图像进行预处理,并通过预训练的图像编码器ViT将预处理后的图像转换为图像token序列img_token;对与图像相关的问题文本进行预处理,对预处理后的问题文本进行编码,将预处理后的问题文本转换为问题文本token序列question_token;将图像toke序列img_token和问题文本toke序列question_token拼接成多模态输入表示。
技术关键词
问答方法 多模态 文本 图文 序列 图像编码器 生成答案 可读存储介质 处理器 存储器 自然语言 图像处理 计算机 像素 模板 颜色 词典
系统为您推荐了相关专利信息
1
一种基于深度学习的新能源电网虚假数据检测方法及系统
虚假数据检测方法 新能源电网 能源监测系统 系统性能参数 逻辑
2
一种基于样例合成的数字人动作生成方法
动作生成方法 序列 生成动作 数据驱动方法 脚部
3
一种基于多模态分析的情绪干预系统、方法、装置与介质
情感特征 情感分析模型 音频设备 锚点 声学特征
4
语言模型微调训练方法、对话生成方法及对话机器人
对话生成方法 标签 意图 语句 计算机执行指令
5
基于深度学习的连铸漏钢预报方法及系统
热电偶 样本 预报方法 粘结漏钢 初始聚类中心
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号