摘要
本发明涉及数据清洗领域,特别是涉及一种基于大语言模型的向量库清洗方法、存储介质及电子设备。包括:以问题ID对多个记录进行聚类,生成多个记录族群;根据在历史数据中大语言模型对每一记录的召回次数及对应的用户问答行为,对记录族群中的每一记录进行有效性评判处理,生成每一记录对应的有效值;将记录族群中有效值小于第一阈值的记录清除。本发明通过第一子有效值与第二子有效值相结合的方式,可以更加准确的通过有效值表示出每一记录在大语言模型的实际使用中的有效性。由此,可以将记录族群中有效值小于第一阈值的记录清除,进而减少对引导库内存的无效占用。
技术关键词
有效值
大语言模型
族群
非瞬时性计算机可读存储介质
清洗方法
有效性
电子设备
聚类
处理器
编码技术
存储器
答案
内存
数据
系统为您推荐了相关专利信息
大语言模型
标签文本
特征提取模块
文本特征向量
字段