摘要
本申请公开了一种基于混淆集的特定领域拼写纠错语料构建方法、装置,包括:利用语音识别模型将特定领域的语音输入识别为初步文本结果,与真实标签对比,得到伪数据;基于伪数据构建混淆集,对混淆集中的每组词按词频排序并保留前n个;获取特定领域的单语语料,结合混淆集生成拼写纠错语料;将其输入预训练语言模型训练,并通过调整模型的注意力机制增强混淆集中词汇的权重,通过迭代训练筛选与真实语料数据集的拼写错误分布在预设差异内的拼写纠错语料;使用筛选后的拼写纠错语料对模型进行微调,直至得到最终拼写纠错模型。该方法能够充分利用特定领域的知识和混淆集的特性,生成高质量的拼写错误数据,从而提高特定领域拼写纠错模型的性能。
技术关键词
语料构建方法
预训练语言模型
纠错
语音输入识别
语音识别模型
爬虫技术
文本
数据
注意力机制
识别编码信息
语句
模型训练模块
标签
处理器
词频统计
在线
计算机设备
可读存储介质
资源
系统为您推荐了相关专利信息
自然语言识别
会议管理方法
文本
内存结构
会议管理装置
存储控制器
数据管理模块
接口组
接口模块
电子系统
表格
检索方法
文本段落
大语言模型
预训练语言模型