摘要
本发明涉及大数据挖掘技术领域,具体为一种大数据文本检索挖掘系统及方法,包括获取用户输入的原始文本数据集;基于图神经网络对所述结构化特征矩阵进行关联挖掘,以得到知识关联图谱;接收待检索文本;将所述待检索文本输入至预训练的多模态编码器,以得到复合查询向量;基于所述知识关联图谱对所述候选文本进行关联扩展,以得到扩展文本集合;对所述扩展文本集合进行重要性排序,以得到最终检索结果集。本发明通过跨模态特征映射和多模态数据融合,可以对不同类型的数据进行综合分析;这种特性不仅有助于拓宽检索范围,还能提高检索结果的准确性,尤其是在处理文本以外的其他模态数据时,能充分挖掘数据间的潜在关联。
技术关键词
文本
挖掘系统
图谱
层次聚类算法
检索策略
矩阵
狄利克雷分配模型
显式语义特征
局部敏感哈希算法
特征提取器
稀疏特征
大数据挖掘技术
主成分分析降维
跨模态
扩展单元
主题
网络
系统为您推荐了相关专利信息
智能日历
管理系统
自然语言
预训练语言模型
管理方法
实时语音
交互优化方法
语音识别模型
音频输出模块
文本