摘要
本发明属于数据智能处理技术领域,具体涉及基于BERT模型和TF‑IDF加权的文本特征数据处理方法与系统,该方法首先获取目标领域文本的待分析数据,并利用jieba库进行分词、移除停用词和统一文本格式等预处理。随后,构建效果词典,包括初始效果词词典的构建、词典扩充和人工检查与标注。在特征提取阶段,计算TF‑IDF值以评估文档中词语的重要性。创新性评分环节,通过正则表达式匹配效果词,并利用大语言模型进行二次判断,对共同效果词进行二次赋权,最终基于TF‑IDF值对目标领域文本的创新性进行评分。该方法结合了BERT模型的深度语义理解与TF‑IDF的文本统计特性,提高了目标领域文本创新性评估的准确性和效率。
技术关键词
特征数据处理方法
BERT模型
文本
词语
词典
训练词向量模型
大语言模型
分词
数据处理系统
停用词表
数据获取模块
字符
分析模块
语义
摘要
语句
编码