摘要
本发明涉及一种基于轻量化预训模型与注意力机制的长文本指令抽取方法,解决了常规指令抽取模型在针对长文本进行抽取时遇到信息量大且其中信息熵程度高、碎片化严重的难题。针对于多实体多指令的长文本抽取难度系数大的情况,引入一种轻量化的预训练模型MacBERT,通过其对长文本进行编码与特征挖掘,在下游任务模型中构建多层级的抽取模型,利用其并行分析长文本中存在命名实体文本、种类,在此基础上进一步识别命名实体中的主体以及其相关的实体,最后通过实体位置的重合区域,抽取出长文本中存在的多条指令的结构体。本发明减少了重复运算所耗费的算力,提升指令模型的泛用性,同时提升对复杂长文本的抽取准确率。
技术关键词
文本
预训练模型
命名实体识别
识别命名实体
识别模块
编码特征
引入注意力机制
非线性特征
生成指令
算法模块
噪声数据
元素
网络结构
系统为您推荐了相关专利信息
多指标综合评价
造价
变电站工程
三维模型构件
人工智能模型
抗癌药物
预训练模型
细胞系
数据集构建方法
代表
线性回归模型
评分方法
商品图像识别
视频
关键特征值
动态感兴趣区域
视频帧
DCS控制系统
刮板
捞渣机