基于混淆集的特定领域拼写纠错语料构建方法、装置

正文

推荐专利

申请号：CN202510394227

申请日期：2025-03-31

公开号：CN120387443A

公开日期：2025-07-29

类型：发明专利

摘要

本申请公开了一种基于混淆集的特定领域拼写纠错语料构建方法、装置，包括：利用语音识别模型将特定领域的语音输入识别为初步文本结果，与真实标签对比，得到伪数据；基于伪数据构建混淆集，对混淆集中的每组词按词频排序并保留前n个；获取特定领域的单语语料，结合混淆集生成拼写纠错语料；将其输入预训练语言模型训练，并通过调整模型的注意力机制增强混淆集中词汇的权重，通过迭代训练筛选与真实语料数据集的拼写错误分布在预设差异内的拼写纠错语料；使用筛选后的拼写纠错语料对模型进行微调，直至得到最终拼写纠错模型。该方法能够充分利用特定领域的知识和混淆集的特性，生成高质量的拼写错误数据，从而提高特定领域拼写纠错模型的性能。

技术关键词

语料构建方法预训练语言模型纠错语音输入识别语音识别模型爬虫技术文本数据注意力机制识别编码信息语句模型训练模块标签处理器词频统计在线计算机设备可读存储介质资源

系统为您推荐了相关专利信息

安全诊断通信电路、目标芯片、安全诊断通信系统及方法

异常信息校验电路通信电路诊断通信系统芯片

一种会议管理方法和装置

自然语言识别会议管理方法文本内存结构会议管理装置

一种存储控制器及电子系统

存储控制器数据管理模块接口组接口模块电子系统

一种面向航天控制软件表格数据的序列化处理和检索方法

表格检索方法文本段落大语言模型预训练语言模型

基于持续知识蒸馏的语法错误纠正方法、系统

学生纠正方法教师蒸馏信息熵

基于混淆集的特定领域拼写纠错语料构建方法、装置

站点导航

APP 下载