摘要
本发明涉及数字医疗技术领域,尤其涉及一种医疗辅助用字幕生成模型的构建方法、装置、设备及介质。该方法使用编码器提取听障测试音频的音频特征,将音频特征和噪声信息融合,使用解码器解码融合结果,得到初始生成字幕,使用自然性鉴别器对初始生成字幕的自然性预测,得到第一预测值,使用语义鉴别器对初始生成字幕和听障测试音频的语义相关性预测,得到第二预测值,计算初始生成字幕和标签字幕的相似度,根据第一预测值、第二预测值和相似度,更新编码器和解码器,由更新好的编码器和解码器形成字幕生成模型,通过多维度监督,提高了神经网络进行生成字幕的仿真程度,通过加噪方式令生成字幕具备多样化特点,提高听障患者获取音频信息的体验。
技术关键词
生成字幕
解码器
音频特征
语义特征
噪声信息
门控循环单元
标签
数字医疗技术
参数更新模块
计算机设备
音频编码器
序列
可读存储介质
特征提取模块
系统为您推荐了相关专利信息
翻译模型训练方法
优化语音信号
实时语音
文本
语音翻译方法
图像生成装置
图像生成方法
生成多尺度
自然语言
动态更新
自然场景统计
关键帧
特征提取模块
视频
空间特征提取