摘要
一种文本检索的方法、装置、设备及存储介质,包括:通过根据预置代码工具读取文件集中的文本信息,以提取所述文本信息中的原始数据构建文本树;根据多尺度解析和重组技术对所述文本树进行处理,生成多个结构化的文本片段;将多个所述文本片段输入预置训练语言模型,获取所述预置训练语言模型输出对应的文本嵌入向量;根据乘积量化技术对所述文本嵌入量进行分解和量化,构建向量索引库;根据获取到的待检索文本和所述向量索引库,计算出所述待检索文本与所述向量索引库中各个文本片段的距离,以获取所述待检索文本对应的目标文本片段,解决了相关技术中依赖大量语料数据进行训练以及关键信息丢失,导致检索的文本效果较差的技术问题。
技术关键词
文本
训练语言模型
节点
索引
多尺度
可读存储介质
解析技术
处理器
编码
程序
模块
存储器
计算机
矩阵
容器
基础
聚类
数据