摘要
本发明涉及一种铁路公文文本关键词提取方法、装置及电子设备,该方法包括:基于预构建的铁路公文格式规则库,通过正则表达式匹配与位置锁定,从输入文本中提取固定位置的关键字段;使用Jieba分词器加载铁路专用术语库进行分词,并通过依赖关系规则动态修正多词组合实体边界;对分词后文本执行TF‑IDF算法生成初始词权重,根据词语在公文中的位置区域按预设系数调整权重,进行位置加权;将权重大于设定阈值的词与提取的关键字段合并,经术语库校验后输出最终关键词集合。本发明避免了传统算法因低频导致的漏检,消除通用分词器拆分错误,使术语识别错误率下降,使核心词排序优先级提升,强化了关键词语义权重;缩短了新术语入库耗时,解决了更新成本问题。
技术关键词
术语
铁路专用
关键字
实体
文本关键词提取
词语
算法
动态更新
格式
定位规则
分词词典
电子设备
附件
关系
系统为您推荐了相关专利信息
文本编码器
图像编码器
跨模态检索方法
语义实体
大语言模型
智能人机交互界面
交互式显示
编码器
语义
鲁棒性
知识图谱模型
决策优化方法
知识图谱构建
传感器接口单元
数据采集单元