融合知识蒸馏与预训练语言模型的非结构化文本标注方法

AITNT
正文
推荐专利
融合知识蒸馏与预训练语言模型的非结构化文本标注方法
申请号:CN202411697139
申请日期:2024-11-26
公开号:CN119204005A
公开日期:2024-12-27
类型:发明专利
摘要
一种融合知识蒸馏与预训练语言模型的非结构化文本标注方法,方法为:录入原始非结构化文本数据;建立支持用户定义知识图谱的知识体系,使用图形化界面进行人工数据标注;将人工标注的结果进行可视化预览,并支持二次更正、支持导出为BIO标签的数据标注格式;按照字符对数据进行分割,避免分词错误,并且替换标签不可用字符:使用知识蒸馏的方法,将BERT‑large作为老师模型,构建参数量更小的学生模型DistilBERT;使用蒸馏后的学生模型DistilBERT,在标注数据上微调模型;微调后的模型支持提供自动化标注服务、支持对接到标注平台、支持自动化标注,同时支持人工可以二次更正;通过反复自动标注和人工标注,迭代微调更新学生模型DistilBERT的参数,提高模型准确率。
技术关键词
文本标注方法 训练语言模型 蒸馏 非结构化文本 学生 标注平台 光学字符识别方法 实体 标签 数据 图谱 老师 分词 定义 神经网络结构 模型训练方法 框架 编程工具
系统为您推荐了相关专利信息
1
演示文稿分析模型、课堂话语分析模型及其应用
教学 上下文特征 特征提取模块 主题 预训练模型
2
基于深度上下文分析的非法活动参与者智能识别方法
智能识别方法 结构化数据结构 线索 特征信息提取 文本
3
基于区块链的分布式异构系统的教育数字身份认证方法
数字身份认证方法 异构系统 教育系统 分布式文件系统 非对称加密算法
4
一种基于人工智能的交互系统及方法
多模态情感分析 交互系统 情感特征 麦克风阵列 语音特征
5
一种关键业务系统运维的集中监控方法及调度系统
业务系统 节点 故障检测模型 监控方法 神经网络训练
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号