摘要
本发明涉及文本信息处理领域,公开了一种面向大规模英文专利文本的关键词提取方法,包括以下步骤:S01、输入大规模英文专利文本;S02、对大规模英文专利文本进行预处理,获取包含单词和二元组的词汇集合;S03、基于TF‑IDF算法对预处理后的专利文本进行初步关键词筛选,生成每份文本的关键词候选集;S04、调用大语言模型,对关键词候选集进行优化筛选,结合英文专利文本的上下文语义,确定每份文本的最终关键词集合。本发明中,在专利文本预处理阶段以及收集单词关键词的同时,生成二元组集合作为候选关键词,通过TF‑IDF算法筛选出关键词候选集,再调用大语言模型进行进一步优化,能有效排除无关词汇,并解决英文多义词释义问题,从而有效提升大规模英文专利文本关键词提取的效率和准确性。
技术关键词
关键词提取方法
大语言模型
文本关键词提取
自然语言
多义词
算法
摘要
信息处理
语义
频率
分词
数据
阶段
系统为您推荐了相关专利信息
智能交互方法
大语言模型
智能客服
自然语言
序列
面向操作系统
支撑框架
多语言
文件存储服务
数据管理方法