基于混淆集的特定领域拼写纠错语料构建方法、装置

AITNT
正文
推荐专利
基于混淆集的特定领域拼写纠错语料构建方法、装置
申请号:CN202510394227
申请日期:2025-03-31
公开号:CN120387443A
公开日期:2025-07-29
类型:发明专利
摘要
本申请公开了一种基于混淆集的特定领域拼写纠错语料构建方法、装置,包括:利用语音识别模型将特定领域的语音输入识别为初步文本结果,与真实标签对比,得到伪数据;基于伪数据构建混淆集,对混淆集中的每组词按词频排序并保留前n个;获取特定领域的单语语料,结合混淆集生成拼写纠错语料;将其输入预训练语言模型训练,并通过调整模型的注意力机制增强混淆集中词汇的权重,通过迭代训练筛选与真实语料数据集的拼写错误分布在预设差异内的拼写纠错语料;使用筛选后的拼写纠错语料对模型进行微调,直至得到最终拼写纠错模型。该方法能够充分利用特定领域的知识和混淆集的特性,生成高质量的拼写错误数据,从而提高特定领域拼写纠错模型的性能。
技术关键词
语料构建方法 预训练语言模型 纠错 语音输入识别 语音识别模型 爬虫技术 文本 数据 注意力机制 识别编码信息 语句 模型训练模块 标签 处理器 词频统计 在线 计算机设备 可读存储介质 资源
系统为您推荐了相关专利信息
1
安全诊断通信电路、目标芯片、安全诊断通信系统及方法
异常信息 校验电路 通信电路 诊断通信系统 芯片
2
一种会议管理方法和装置
自然语言识别 会议管理方法 文本 内存结构 会议管理装置
3
一种存储控制器及电子系统
存储控制器 数据管理模块 接口组 接口模块 电子系统
4
一种面向航天控制软件表格数据的序列化处理和检索方法
表格 检索方法 文本段落 大语言模型 预训练语言模型
5
基于持续知识蒸馏的语法错误纠正方法、系统
学生 纠正方法 教师 蒸馏 信息熵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号