一种面向大规模英文专利文本的关键词提取方法

AITNT
正文
推荐专利
一种面向大规模英文专利文本的关键词提取方法
申请号:CN202411536569
申请日期:2024-10-30
公开号:CN119514533A
公开日期:2025-02-25
类型:发明专利
摘要
本发明涉及文本信息处理领域,公开了一种面向大规模英文专利文本的关键词提取方法,包括以下步骤:S01、输入大规模英文专利文本;S02、对大规模英文专利文本进行预处理,获取包含单词和二元组的词汇集合;S03、基于TF‑IDF算法对预处理后的专利文本进行初步关键词筛选,生成每份文本的关键词候选集;S04、调用大语言模型,对关键词候选集进行优化筛选,结合英文专利文本的上下文语义,确定每份文本的最终关键词集合。本发明中,在专利文本预处理阶段以及收集单词关键词的同时,生成二元组集合作为候选关键词,通过TF‑IDF算法筛选出关键词候选集,再调用大语言模型进行进一步优化,能有效排除无关词汇,并解决英文多义词释义问题,从而有效提升大规模英文专利文本关键词提取的效率和准确性。
技术关键词
关键词提取方法 大语言模型 文本关键词提取 自然语言 多义词 算法 摘要 信息处理 语义 频率 分词 数据 阶段
系统为您推荐了相关专利信息
1
乙肝数据分析方法、装置、电子设备及可读存储介质
数据分析方法 乙肝 机器学习模型 标注规则 专业
2
用于大语言模型的自然语言智能交互方法
智能交互方法 大语言模型 智能客服 自然语言 序列
3
内容处理方法、装置、可读介质、电子设备及程序产品
聚类算法 对象 语义 机器学习模型 大语言模型
4
一种智能设备AI语音控制方法及系统
AI语音 智能设备 文本 识别语音信息 代表
5
一种基于面向操作系统的多语言支撑框架的系统及其数据管理方法
面向操作系统 支撑框架 多语言 文件存储服务 数据管理方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号