基于BERT模型和TF-IDF加权的文本特征数据处理方法与系统

AITNT
正文
推荐专利
基于BERT模型和TF-IDF加权的文本特征数据处理方法与系统
申请号:CN202411612370
申请日期:2024-11-13
公开号:CN119538919B
公开日期:2025-10-03
类型:发明专利
摘要
本发明属于数据智能处理技术领域,具体涉及基于BERT模型和TF‑IDF加权的文本特征数据处理方法与系统,该方法首先获取目标领域文本的待分析数据,并利用jieba库进行分词、移除停用词和统一文本格式等预处理。随后,构建效果词典,包括初始效果词词典的构建、词典扩充和人工检查与标注。在特征提取阶段,计算TF‑IDF值以评估文档中词语的重要性。创新性评分环节,通过正则表达式匹配效果词,并利用大语言模型进行二次判断,对共同效果词进行二次赋权,最终基于TF‑IDF值对目标领域文本的创新性进行评分。该方法结合了BERT模型的深度语义理解与TF‑IDF的文本统计特性,提高了目标领域文本创新性评估的准确性和效率。
技术关键词
特征数据处理方法 BERT模型 文本 词语 词典 训练词向量模型 大语言模型 分词 数据处理系统 停用词表 数据获取模块 字符 分析模块 语义 摘要 语句 编码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号