摘要
本发明提供了一种面向文本检索的自适应长度嵌入方法及系统,包括:使用训练好的嵌入模型将原始文档编码成高维嵌入向量,得到原始文档嵌入矩阵X∈Rn×d;将所述嵌入向量通过转换矩阵拟合模块进行学习变换矩阵,得到转换后嵌入向量;将所述转换后嵌入向量输入至混合编码模块进行混合编码,把每个文档的转换后嵌入向量分为定长稠密部分和变长稀疏部分,并根据文档的语义复杂度动态调整稀疏部分的长度,之后结合稠密和稀疏部分进行相似度计算,从而实现自适应的文本检索。本发明不仅显著提升了系统的资源利用效率,还保证了检索的准确性和鲁棒性。特别适合于大规模检索系统以及对存储和计算资源要求严格的应用环境。
技术关键词
嵌入方法
编码模块
协方差矩阵
复杂度
语义
线性
检索系统
特征值
成分分析
样本
动态
文本
鲁棒性
定义
索引
数据
元素
系统为您推荐了相关专利信息
文本标注方法
文本处理模型
神经网络模型训练
聚类
可读存储介质