摘要
本申请提供了一种用于处理多模态数据的方法、装置、电子设备、计算机可读介质和计算机程序产品。本申请的方法包括:通过将待处理数据的文本内容进行词表征处理,得到文本特征向量;如果待处理数据包含预定数量的图片,则通过提取每一张图片的图片特征并将图片特征映射至文本特征空间,得到图片特征向量,如果待处理数据中图片张数小于预定数量,则在将图片特征映射至文本特征空间后,对映射结果根据预设的输入序列长度进行零填充;将所述文本特征向量和所述图片特征向量进行特征融合得到的多模态融合特征,作为多模态模型的输入;训练所述多模态模型,以在多模态模型中基于输入的多模态融合特征输出预定预测任务的预测结果。本申请实现了使用一个模型来同时处理纯文本数据和包含文本和图片的数据,节省了计算资源。
技术关键词
文本特征向量
图片
多模态
融合特征
序列
卷积神经网络模型
计算机程序指令
数据
计算机程序产品
电子设备
处理器通信
风险
介质
存储器
系统为您推荐了相关专利信息
锂电池健康状态
彩色图像数据
时间序列特征
锂电池充电电流
深度学习模型
实体
查询语句生成方法
注意力
细粒度分类
生成提示词
生成系统
显示设备
输入终端
构建机器学习模型
异构