摘要
本发明涉及自然语言处理技术领域,尤其涉及一种基于语义预测的结构化知识单元生成方法,包括,响应结构化知识提取请求;接收原始非结构文档并将非结构文档切分为一个或多个语义文本块,计算对应的语义密度向量特征;调用训练好的语义信息产出率预测模型,根据每个语义密度向量特征预测每个结构化知识单元目标数量;根据预测的结构化知识单元目标数量,调用大型语言模型迭代生成候选结构化知识单元,同时对候选结构化知识单元进行语义去重,直至达到结构化知识单元目标数量或满足预设饱和条件时,输出知识单元结果集合。根据文本块的语义密度向量自适应调整生成策略,逐步饱和文档语义内容,确保目标数量的知识单元生成,并具有良好的扩展性。
技术关键词
语义
生成方法
密度
命名实体识别
非结构化文本
术语
生成系统
概念
索引
轨迹
批量
数据处理模块
计数器
策略
自然语言
字符
计算器
内存