摘要
本发明涉及知识图谱构建技术领域,公开了一种构建科研物资采购需求知识图谱的方法,包括:步骤一,利用网络爬虫技术爬取细分领域相关网站,收集专业词汇;对专业词汇进行分词,使长文本粒度化,向词汇词典添加词汇因子形成分类词汇词典;步骤二,结合步骤一中对分类词汇词典,采用编辑距离替代完全匹配的双向最大匹配算法对某科研细分领域的用户需求样本进行自动序列标注;步骤三,同步训练Bert-BiLSTM-CRF深度学习模型和CRF机器学习模型。通过爬取科研细分领域的网页多模态数据并抽取关键信息,维护科研领域专业词汇辞典,同时对简略模糊书写的用户采购需求文档进行自动化批量标注,通过优化词汇匹配模型提高标注的泛化能力。
技术关键词
科研
机器学习模型
深度学习模型
命名实体识别
知识图谱构建技术
词典
网络爬虫技术
自动化批量
专业
文本
层级
编辑
分词
样本
算法
序列
切片
多模态
系统为您推荐了相关专利信息
多尺度特征
岩体结构面
智能识别方法
多尺度滤波
RANSAC算法
放疗设备
肿瘤
数学模型
时间序列预测模型
深度学习预测
医疗知识图谱
关键词
语义
知识图谱补全
数据预处理装置
污水处理设备
智能控制方法
污水设备控制
机器学习模型
机器学习分类