基于BERT模型和TF-IDF加权的文本特征数据处理方法与系统

正文

推荐专利

申请号：CN202411612370

申请日期：2024-11-13

公开号：CN119538919B

公开日期：2025-10-03

类型：发明专利

摘要

本发明属于数据智能处理技术领域，具体涉及基于BERT模型和TF‑IDF加权的文本特征数据处理方法与系统，该方法首先获取目标领域文本的待分析数据，并利用jieba库进行分词、移除停用词和统一文本格式等预处理。随后，构建效果词典，包括初始效果词词典的构建、词典扩充和人工检查与标注。在特征提取阶段，计算TF‑IDF值以评估文档中词语的重要性。创新性评分环节，通过正则表达式匹配效果词，并利用大语言模型进行二次判断，对共同效果词进行二次赋权，最终基于TF‑IDF值对目标领域文本的创新性进行评分。该方法结合了BERT模型的深度语义理解与TF‑IDF的文本统计特性，提高了目标领域文本创新性评估的准确性和效率。

技术关键词

特征数据处理方法 BERT模型文本词语词典训练词向量模型大语言模型分词数据处理系统停用词表数据获取模块字符分析模块语义摘要语句编码

基于BERT模型和TF-IDF加权的文本特征数据处理方法与系统

站点导航

APP 下载