摘要
本申请公开了一种数据处理方法、装置、设备及存储介质。本申请涉及大数据技术领域。该方法包括在接收到第一语音时,获取第一语音文本和与第一语音文本相接的且为第一语音的识别文本的第二语音文本;根据第一语音、第一语音文本和第二语音文本,通过由专业技术领域相关的专业技术领域词汇的负例数据集训练的语音识别模型,校验第二语音文本中与专业技术领域相关的专业词汇。如此,通过引入专业技术领域相关的专业词汇,构建负例数据集,以训练能够校验文本和语音等多模态数据中的专业技术领域词汇是否有误的语音识别模型,实现提高专业技术领域识别专业技术词汇的准确性,降低语音转换后文本的错误率,节省人力资源的同时提高语音文本的纠错效率。
技术关键词
文本
语音识别模型
关键词
样本
专业
数据处理方法
计算机程序指令
梅尔频率倒谱系数
多模态数据融合
特征提取模型
自然语言分词
音频
数据处理装置
大数据技术
计算机程序产品
处理器
校验模块
计算机设备
系统为您推荐了相关专利信息
框架构建方法
大语言模型
风电机组
跨模态
无监督
生成医学图像
插值方法
网络
医学图像重建技术
立方体
敏感数据识别
数据检测方法
参数
语义分析模型
数据检测装置
报告自动生成方法
图像编码器
多模态
视觉特征
样本