一种面向大规模英文专利文本的关键词提取方法

正文

推荐专利

申请号：CN202411536569

申请日期：2024-10-30

公开号：CN119514533A

公开日期：2025-02-25

类型：发明专利

摘要

本发明涉及文本信息处理领域，公开了一种面向大规模英文专利文本的关键词提取方法，包括以下步骤：S01、输入大规模英文专利文本；S02、对大规模英文专利文本进行预处理，获取包含单词和二元组的词汇集合；S03、基于TF‑IDF算法对预处理后的专利文本进行初步关键词筛选，生成每份文本的关键词候选集；S04、调用大语言模型，对关键词候选集进行优化筛选，结合英文专利文本的上下文语义，确定每份文本的最终关键词集合。本发明中，在专利文本预处理阶段以及收集单词关键词的同时，生成二元组集合作为候选关键词，通过TF‑IDF算法筛选出关键词候选集，再调用大语言模型进行进一步优化，能有效排除无关词汇，并解决英文多义词释义问题，从而有效提升大规模英文专利文本关键词提取的效率和准确性。

技术关键词

关键词提取方法大语言模型文本关键词提取自然语言多义词算法摘要信息处理语义频率分词数据阶段

系统为您推荐了相关专利信息

乙肝数据分析方法、装置、电子设备及可读存储介质

数据分析方法乙肝机器学习模型标注规则专业

用于大语言模型的自然语言智能交互方法

智能交互方法大语言模型智能客服自然语言序列

内容处理方法、装置、可读介质、电子设备及程序产品

聚类算法对象语义机器学习模型大语言模型

一种智能设备AI语音控制方法及系统

AI语音智能设备文本识别语音信息代表

一种基于面向操作系统的多语言支撑框架的系统及其数据管理方法

面向操作系统支撑框架多语言文件存储服务数据管理方法

一种面向大规模英文专利文本的关键词提取方法

站点导航

APP 下载