一种基于实体信息增强的中文拼写纠错方法、装置、计算机可读存储介质

AITNT
正文
推荐专利
一种基于实体信息增强的中文拼写纠错方法、装置、计算机可读存储介质
申请号:CN202411116497
申请日期:2024-08-15
公开号:CN119272759A
公开日期:2025-01-07
类型:发明专利
摘要
本发明提出基于实体信息增强的中文拼写纠错方法、装置、计算机可读存储介质。本发明收集了公开的实体词典,并对其进一步扩展;利用扩展后的实体词典和搜集的无标注语料,构建了一个专注实体的中文拼写语料,并利用三种不同的掩码策略来隐藏语料中的实体信息;使用所构建的语料对预训练语言模型微调,以增强模型对浅层实体信息的关注,并进一步增强模型中的实体表征,从而使得模型更加适应于中文拼写纠错场景;本发明通过模型集成技术融合不同模型中的实体信息,以进一步提升模型在中文拼写纠错任务中的性能表现。本发明在保持中文拼写纠错效能的同时,显著提升了对于实体信息的关注度,有效纠错错误句子中的实体错误,从而验证了该方法的有效性。
技术关键词
拼写纠错方法 预训练语言模型 命名实体识别模型 掩码策略 词典 命名实体模型 上采样技术 可读存储介质 通信接口 处理器 计算机存储介质 纠错装置 维基百科 存储计算机程序 计算机程序产品
系统为您推荐了相关专利信息
1
一种基于术语语义的海洋多参数信息提取方法
海洋多参数 信息提取方法 术语 短语结构 语义
2
医生推荐信息的生成方法、装置、电子设备及存储介质
编码模块 实体识别模型 大语言模型 残差模块 信息处理单元
3
一种基于领域知识图谱STM32位功能问答方法及系统
问答方法 命名实体识别模型 图谱 三元组 表格
4
通信类SPU的生成方法及装置
网络通信 生成方法 关系 分词词典 库存管理
5
锂电设备故障诊断的智能问答方法、装置、设备及介质
故障知识库 设备故障诊断 锂电 智能问答方法 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号