融合知识蒸馏与预训练语言模型的非结构化文本标注方法

正文

推荐专利

申请号：CN202411697139

申请日期：2024-11-26

公开号：CN119204005A

公开日期：2024-12-27

类型：发明专利

摘要

一种融合知识蒸馏与预训练语言模型的非结构化文本标注方法，方法为：录入原始非结构化文本数据；建立支持用户定义知识图谱的知识体系，使用图形化界面进行人工数据标注；将人工标注的结果进行可视化预览，并支持二次更正、支持导出为BIO标签的数据标注格式；按照字符对数据进行分割，避免分词错误，并且替换标签不可用字符：使用知识蒸馏的方法，将BERT‑large作为老师模型，构建参数量更小的学生模型DistilBERT；使用蒸馏后的学生模型DistilBERT，在标注数据上微调模型；微调后的模型支持提供自动化标注服务、支持对接到标注平台、支持自动化标注，同时支持人工可以二次更正；通过反复自动标注和人工标注，迭代微调更新学生模型DistilBERT的参数，提高模型准确率。

技术关键词

文本标注方法训练语言模型蒸馏非结构化文本学生标注平台光学字符识别方法实体标签数据图谱老师分词定义神经网络结构模型训练方法框架编程工具

系统为您推荐了相关专利信息

演示文稿分析模型、课堂话语分析模型及其应用

教学上下文特征特征提取模块主题预训练模型

基于深度上下文分析的非法活动参与者智能识别方法

智能识别方法结构化数据结构线索特征信息提取文本

基于区块链的分布式异构系统的教育数字身份认证方法

数字身份认证方法异构系统教育系统分布式文件系统非对称加密算法

一种基于人工智能的交互系统及方法

多模态情感分析交互系统情感特征麦克风阵列语音特征

一种关键业务系统运维的集中监控方法及调度系统

业务系统节点故障检测模型监控方法神经网络训练

融合知识蒸馏与预训练语言模型的非结构化文本标注方法

站点导航

APP 下载