基于多模态大模型和思维链的图文问答方法、设备及介质

正文

推荐专利

申请号：CN202510002641

申请日期：2025-01-02

公开号：CN119918673A

公开日期：2025-05-02

类型：发明专利

摘要

本发明公开了基于多模态大模型和思维链的图文问答方法、设备及介质，属于自然语言处理技术领域，本发明要解决的技术问题为如何提升复杂图文问答任务中的推理能力、答案的准确性以及可解释性，采用的技术方案为：收集图像以及与图像相关的问题文本；对图像进行预处理，并通过预训练的图像编码器ViT将预处理后的图像转换为图像token序列img_token；对与图像相关的问题文本进行预处理，对预处理后的问题文本进行编码，将预处理后的问题文本转换为问题文本token序列question_token；将图像toke序列img_token和问题文本toke序列question_token拼接成多模态输入表示。

技术关键词

问答方法多模态文本图文序列图像编码器生成答案可读存储介质处理器存储器自然语言图像处理计算机像素模板颜色词典

系统为您推荐了相关专利信息

一种基于深度学习的新能源电网虚假数据检测方法及系统

虚假数据检测方法新能源电网能源监测系统系统性能参数逻辑

一种基于样例合成的数字人动作生成方法

动作生成方法序列生成动作数据驱动方法脚部

一种基于多模态分析的情绪干预系统、方法、装置与介质

情感特征情感分析模型音频设备锚点声学特征

语言模型微调训练方法、对话生成方法及对话机器人

对话生成方法标签意图语句计算机执行指令

基于深度学习的连铸漏钢预报方法及系统

热电偶样本预报方法粘结漏钢初始聚类中心

基于多模态大模型和思维链的图文问答方法、设备及介质

站点导航

APP 下载