摘要
本公开提供了基于多模态大模型的文本确定方法、多模态大模型训练方法以及设备,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、自然语言处理、大模型等技术领域。具体实现方案为:通过多模态大模型中的编码网络、目标图像以及目标图像对应的任务描述文本确定出第一词元序列,并将第一词元序列输入多模态大模型中的大语言模型,获取输出的第一词元特征序列,以及将第一词元特征序列中最后一个词元特征分别输入多模态大模型中的各个解码网络,获取各个解码网络输出的目标词元,并根据第一词元序列和目标词元,得到目标文本。
技术关键词
序列
解码网络
大语言模型
多模态
文本编码器
图像
样本
模型训练方法
人工智能技术
计算机程序产品
计算机视觉
过滤模块
训练装置
处理器通信
系统为您推荐了相关专利信息
动态贝叶斯网络
柔性电子技术
智能评估方法
回声状态网络
步态特征
盲人智能眼镜
规划
导航模块
GPS位置信息
视觉