摘要
一种融合知识蒸馏与预训练语言模型的非结构化文本标注方法,方法为:录入原始非结构化文本数据;建立支持用户定义知识图谱的知识体系,使用图形化界面进行人工数据标注;将人工标注的结果进行可视化预览,并支持二次更正、支持导出为BIO标签的数据标注格式;按照字符对数据进行分割,避免分词错误,并且替换标签不可用字符:使用知识蒸馏的方法,将BERT‑large作为老师模型,构建参数量更小的学生模型DistilBERT;使用蒸馏后的学生模型DistilBERT,在标注数据上微调模型;微调后的模型支持提供自动化标注服务、支持对接到标注平台、支持自动化标注,同时支持人工可以二次更正;通过反复自动标注和人工标注,迭代微调更新学生模型DistilBERT的参数,提高模型准确率。
技术关键词
文本标注方法
训练语言模型
蒸馏
非结构化文本
学生
标注平台
光学字符识别方法
实体
标签
数据
图谱
老师
分词
定义
神经网络结构
模型训练方法
框架
编程工具
系统为您推荐了相关专利信息
智能识别方法
结构化数据结构
线索
特征信息提取
文本
数字身份认证方法
异构系统
教育系统
分布式文件系统
非对称加密算法
多模态情感分析
交互系统
情感特征
麦克风阵列
语音特征
业务系统
节点
故障检测模型
监控方法
神经网络训练