摘要
本发明公开了用于大规模文献集的索引优化与压缩存储系统及方法,包括如下步骤:S1、文献数据采集与预处理,生成规范化文本数据集;S2、关键词语义向量编码,构建关键词语义向量矩阵;S3、初始高斯混合模型构建,得到聚类中心、协方差矩阵与权重;S4、引入海象优化算法优化聚类参数,输出最优聚类结果;S5、构建语义聚类结构,生成索引树结构;S6、位图压缩倒排编码,构建支持布尔逻辑的索引表;S7、新增文献动态接入,完成索引结构增量更新。本发明用于提升大规模文献集的索引构建效率与存储压缩率,实现高效、语义化和可增量更新的文献检索服务。
技术关键词
压缩存储方法
语义向量
压缩存储系统
协方差矩阵
增量更新
文本
生成关键词
高斯混合模型聚类
压缩存储结构
高斯概率密度函数
参数
索引表
生成倒排索引
上下文语义信息
索引数据结构
系统为您推荐了相关专利信息
欺骗攻击检测方法
工业信息物理系统
信息物理系统模型
协方差矩阵
信道
三元组
信息匹配方法
患者
信息知识图谱
后验概率分布
卡尔曼滤波
精确时间同步协议
联合跟踪方法
协方差矩阵
状态空间模型
爬壁机器人
定位导航方法
协方差矩阵
风速
视觉设备
综合误差
误差模型
在线参数辨识
数据
递推最小二乘法