摘要
本申请公开了一种多模态数据处理方法和装置,该方法包括:获得待处理的N张图像以及任务指示信息,任务指示信息表征至少基于N张图像之间的关联关系执行目标处理任务,N为大于等于2的整数;通过视觉编码器确定N张图像的细节特征和全局特征;基于细节特征和全局特征的融合特征,通过视觉映射器将融合特征映射为自然语言特征;通过大语言模型处理自然语言特征以及任务指示信息的文本特征,以至少基于N张图像之间的关联关系,执行目标处理任务。
技术关键词
大语言模型
自然语言
样本
残差网络
数据处理方法
融合特征
中间层
文本
关系
视觉
图像生成模型
模块
数据处理单元
数据处理装置
多模态
参数
系统为您推荐了相关专利信息
金属表面缺陷
原始图像数据
边缘检测算法
原型
少量标注数据
网站地图
智能网络
爬虫方法
大语言模型
网络信息处理技术
天气预测模型
天气预测方法
噪声数据
样本
天气预测装置
权益保护方法
嵌入特征
多模态
分类特征
模态特征