摘要
本申请实施例提供了一种多模态数据的处理方法、装置、设备和存储介质,获取多模态数据和多模态数据对应的处理指令;确定多模态数据对应的数据标签;根据多模态数据对应的数据标签,确定多模态数据对应的数据模态;数据模态包括视频模态、图像模态和文本模态;将多模态数据对应的数据模态从视频模态和图像模态统一为文本模态,得到多模态数据对应的文本特征;根据多模态数据对应的文本特征和处理指令,得到多模态数据对应的处理结果。通过将视频模态和图像模态统一转换为文本模态,实现了不同模态数据的统一表示,减少了模态之间的异构性带来的复杂性,可以减少模型处理高分辨率图像和长视频时的计算量,从而提高了计算效率。
技术关键词
多模态
文本
数据标签
指令推理
大语言模型
视频
图像数据分割
机器可读介质
分辨率
数据处理模块
处理器
电子设备
异构
存储器
系统为您推荐了相关专利信息
灯光控制
AI语音
语音信号处理技术
分析模块
日期
时间段
数据
神经网络模型
注意力机制
事件分类技术