摘要
本发明公开了一种自适应数据驱动的高维向量距离估计方法,旨在优化高维近似最近邻搜索中的距离比较操作。该方法通过基于数据分布的正交变换将高维数据投影到低维空间,并在低维空间中进行无偏的距离估计。通过主成分分析优化正交变换矩阵,进一步降低估计误差。此外,采用基于数据分布的自适应维数扩张策略,动态调整计算维度,以在保证精度的前提下减少计算量。本方法可以作为可插拔组件与现有近似最近邻搜索算法(如HNSW和IVF)无缝集成,显著提高查询效率,同时维持较高的召回率。实验结果表明,该方法在多个数据集上能够提高40%以上的搜索效率,同时达到领域内领先水平的准确率,具有较强的实际应用价值。
技术关键词
距离估计
正交变换
数据分布
主成分分析方法
可插拔组件
估计误差
搜索算法
策略
矩阵
动态
对象
阶段
精度