摘要
本发明涉及一种基于关键单词筛选的改进型关键短语提取方法,适用于单个英文专利文本的关键短语提取,该方法基于现有的KeyBERT技术,并引入了关键单词筛选步骤,以提高关键短语提取的准确性,具体而言,本发明通过以下步骤实现:首先,对专利文本进行分词、去除停用词和标点符号,提取专利文本的关键单词;其次,利用KeyBERT中的CountVectorizer功能,生成关键短语候选列表;然后,基于专利文本所属领域的强相关关键单词对候选关键短语进行筛选;最后,通过余弦相似性计算确定最终的关键短语,通过引入关键单词筛选步骤,本发明能够有效减少无关候选短语的数量,提高关键短语提取的精度和效率,尤其适用于技术性强、专业性高的专利文本分析。
技术关键词
关键短语提取方法
文本
命名实体识别
阈值机制
BERT模型
词嵌入向量
融合语义
可读存储介质
预训练模型
列表
语义向量
计算机系统
多模型
分词
专利技术
术语
模块
编码
系统为您推荐了相关专利信息
智能交互系统
上下文管理
多模态融合技术
深度学习模型
情感词典
节点
公证申请
零知识证明技术
关联地理位置信息
电子
情感分类系统
情感分类模型
特征提取模块
语义特征提取
词嵌入向量
资源调度方法
推理技术
决策
文本
非暂态计算机可读存储介质