摘要
本发明公开了一种单模态指令集深度多模态化拓展的方法、系统和设备,方法包括:从已有的指令数据集中获取初始指令和初始单模态数据;根据所述初始单模态数据获取对应的额外辅助信息;对所述初始指令进行系统化处理,整合多个单模态数据以及所述额外辅助信息,生成具备语义的文本描述;输入所述文本描述,从而生成多模态数据。本发明对多模态数据进行联合处理和交互分析,解决了如何在多模态信息间建立有效联系的问题,提升了系统对复杂任务的全局理解和决策能力。能够在多个应用场景中显著提升多模态系统的智能化水平,特别是在需要跨模态数据融合与复杂指令处理的任务中,展现出极强的处理能力。
技术关键词
文本
指令
多模态系统
跨模态数据
语义
视频
音频
对象检测
扩展模块
图像
处理器
存储装置
程序
决策
视觉
标签
系统为您推荐了相关专利信息
节点
输入输出关系
生成可执行文件
芯片
网络结构
图像
机器可读指令
汉明距离
历史采集数据
后续数据分析