摘要
本发明提供了一种面向教育领域的知识库多维特征增强方法及装置,方法包括:将教育招生数据按年份‑地区‑类型‑专业进行内聚分库,形成多个独立子库,每个所述子库对应唯一维度组合;对分库后的数据片段采用XML格式进行标记,为每个知识片段分配唯一ID,所述ID由年份‑学校缩写‑专业缩写‑地区缩写‑流水号组成;为所述知识片段添加时间、地域、专业维度的特征标签;对用户问题依次进行实体识别、意图解析、子问题生成;结合向量检索与关键词检索,设置双重阈值过滤无效数据。本发明的方案能够解决现有教育招生场景中数字敏感型知识库存在的数据分散、特征混杂、知识片段边界模糊及大模型回答失真等问题。
技术关键词
专业
Viterbi算法
关键词
意图
高水平运动队
流水号
数据
实体
CRF模型
拆分算法
处理器
分类阈值
增量更新
计算机
策略更新
字段
学校
标签
语义向量
标记单元