摘要
本发明提供基于多模态大模型的数学问题求解方法、装置和电子设备,涉及人工智能技术领域。所述方法包括:确定数学问题的数学要素图像;将数学要素图像输入图像编码模型,得到图像编码模型输出的图像向量;图像编码模型基于样本数学要素图像及其对应的正样例文本描述和负样例文本描述训练得到;将图像向量输入自适应模块,得到自适应模块输出的图像转换编码向量;自适应模块基于样本图像向量和样本文本向量训练得到;确定数学问题的题干文字,将题干文字和图像转换编码向量输入大语言模型,得到大语言模型输出的预测解答过程;大语言模型基于样本题干文字、样本图像转换编码向量和样本解答过程训练得到,能够提升多模态大模型的数学问题求解能力。
技术关键词
图像编码
文本
数学
编码向量
大语言模型
多模态
样本
非暂态计算机可读存储介质
模块
求解装置
电子设备
处理器
人工智能技术
计算机程序产品
字母
存储器
数值
序列
系统为您推荐了相关专利信息
图片检索方法
三元组损失函数
多模态特征融合
文本编码器
图像编码器
多轮对话
意图识别模型
数据
可读存储介质
终端设备
界面组件
媒体
展示界面
展示方法
应用程序冷启动
蒙汉神经机器翻译方法
文本生成图像
蒙古语
融合图像信息
图像转换方法