摘要
本申请公开了一种用于AI大模型预训练的异构数据融合装置、方法及介质,涉及人工智能技术领域。该异构数据融合装置包括采集模块、处理模块和输出模块,处理模块包括识别解析单元和对齐评估单元,输出模块包括填充单元和索引单元;识别解析单元用于识别并解析不同模态的异构数据,获得各标准数据对象,对齐评估单元用于将各标准数据对象统一语义向量,并计算多模态数据对的质量评分;填充单元用于将多模态数据对填充至语义驱动模板的对应槽位,并向目标样本附加标签和质量评分,索引单元用于将目标样本封装为标准数据结构,并构建目标样本的多维度索引。采用本申请装置能够统一标准,并且准确融合多模态数据,提升了处理效率和预训练数据的质量。
技术关键词
数据融合装置
异构数据融合方法
语义向量
模型预训练
多模态
解析单元
样本
多通道
输出模块
索引
语义标签
对象
模板
可读存储介质
人工智能技术