摘要
本申请提供一种数据处理、自然语言处理、法律文档处理的方法及设备。本申请的数据处理方法,基于目标领域的领域数据生成备选词表;使用通用机器学习模型对领域数据进行前向推理,根据前向推理结果计算备选词表中各备选词的梯度,梯度体现了备选词对提升模型领域能力的关键程度;基于备选词的梯度筛选出对提升模型领域能力更关键的词来构建领域词表;相较于领域数据的全部分词,经筛选得到的领域词表是一个效果更好的子集,使用该领域词表扩展通用词表,可以更好地提升领域模型的性能;另外,本申请提供的方法,可以自动化地构建各垂直领域的领域词表,无需人工设计、不依赖于具有领域先验知识的专家,大大提升了领域词表的构建效率。
技术关键词
通用机器学习模型
标记
序列
节点
自然语言文本
计算机执行指令
字典树
数据处理方法
分词
可读存储介质
计算机程序产品
处理器通信
服务器
标识
存储器
系统为您推荐了相关专利信息
分布预测方法
采样模块
船舶自动识别系统
上采样
检测头
电荷耦合器件相机
激光标记方法
激光头
激光标记系统
工件
推荐方法
智能匹配技术
协同过滤算法
元素
挖掘频繁项集
深海采矿系统
微生物共生培养
Fe3O4磁性纳米颗粒
机电接口
网络认证节点