解决英文实体识别token数量与word数量不一致的方法

AITNT
正文
推荐专利
解决英文实体识别token数量与word数量不一致的方法
申请号:CN202411676784
申请日期:2024-11-21
公开号:CN119558317A
公开日期:2025-03-04
类型:发明专利
摘要
本发明属于自然语言处理技术领域,且公开了解决英文实体识别token数量与word数量不一致的方法,该方法具体步骤如下:S1:句子预处理与单词级别打标签;S2:字母组合切分;S3:词嵌入;S4:上游模型处理;S5:池化操作:S6:下游模型处理:S7:输出标签序列。本发明通过优化处理流程,成功解决了字母组合级标注导致的资源浪费问题,避免了不必要的计算开销,同时,该方案还克服了单词级别预测中单词与字母组合对应关系难以学习的难题,确保了模型更准确地捕捉文本内部的语义和形态信息,实验结果显示,采用字母组合级别的处理方法相较于传统方法,在性能上实现了显著提升,准确率提高了3个百分点。
技术关键词
矩阵 序列 命名实体识别 打标签 中文分词算法 自然语言 编码 组织 语义 解码 文本 形态 代表 决策 格式 关系 列表
系统为您推荐了相关专利信息
1
基于大语言模型的科技报告技术社区语义解析方法及系统
语义解析方法 大语言模型 动态数据集 分层注意力 多模态
2
一种基于里程轮和IMU的管道机器人定位方法、系统、装置及介质
管道机器人定位 初始姿态角 互补滤波算法 脉冲 数据
3
一种新能源汽车电气设备检测系统及方法
电气设备检测系统 新能源汽车 故障预测模型 维修现场 数据采集单元
4
一种基于蓝牙通信的卡车锂电池测试方法及装置
电池运行状态 工况特征 智能校准 性能测试报告 锂电池管理系统
5
一种基于视觉数据的既有损伤空心板梁桥自动有限元建模与性能评估方法
三维点云数据 空心板梁桥 性能评估方法 尺寸自动测量方法 生死单元法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号