摘要
本发明公开了一种基于深度学习的多模态混合数据库储存和交互方法。本发明在现有多模态数据分开存储和利用单模态混合标签交互技术的基础上实现了不同模态数据(图像、视频、语音和文字)的混合存储与实时检索交互功能,进一步增加了对于融合数据的理解和提升交互性能。在技术层面,本发明利用深度学习统一通用模型分别对图像、视频、语音和文字进行特征提取和融合;本发明采用了多模态融合数据的通用存储;本发明采用了用户数据与融合后的特征数据匹配计算;本发明根据匹配信息和通用统一模型进行多模态转化并返回。
技术关键词
多模态深度学习
交互方法
融合特征
多模态数据融合
深度学习模型
交互技术
自然语言
视频
交互性
图像
语音
解码
标签
编码
基础
系统为您推荐了相关专利信息
光学编码器
分类网络
图像
浅层特征提取
融合特征
心血管手术
手术路径规划
深度学习模型
多尺度图像分割
三维渲染技术
变分自动编码器
问答交互方法
知识图谱向量
构建查询语句
三元组