医疗辅助用字幕生成模型的构建方法、装置、设备及介质

AITNT
正文
推荐专利
医疗辅助用字幕生成模型的构建方法、装置、设备及介质
申请号:CN202411731897
申请日期:2024-11-27
公开号:CN119676389B
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及数字医疗技术领域,尤其涉及一种医疗辅助用字幕生成模型的构建方法、装置、设备及介质。该方法使用编码器提取听障测试音频的音频特征,将音频特征和噪声信息融合,使用解码器解码融合结果,得到初始生成字幕,使用自然性鉴别器对初始生成字幕的自然性预测,得到第一预测值,使用语义鉴别器对初始生成字幕和听障测试音频的语义相关性预测,得到第二预测值,计算初始生成字幕和标签字幕的相似度,根据第一预测值、第二预测值和相似度,更新编码器和解码器,由更新好的编码器和解码器形成字幕生成模型,通过多维度监督,提高了神经网络进行生成字幕的仿真程度,通过加噪方式令生成字幕具备多样化特点,提高听障患者获取音频信息的体验。
技术关键词
生成字幕 解码器 音频特征 语义特征 噪声信息 门控循环单元 标签 数字医疗技术 参数更新模块 计算机设备 音频编码器 序列 可读存储介质 特征提取模块
系统为您推荐了相关专利信息
1
基于Transformer的医学语音翻译模型训练方法及医学语音翻译方法
翻译模型训练方法 优化语音信号 实时语音 文本 语音翻译方法
2
一种基于深度学习的图像生成方法及装置
图像生成装置 图像生成方法 生成多尺度 自然语言 动态更新
3
基于深浅层时空特征的屏幕内容视频质量评价方法及装置
自然场景统计 关键帧 特征提取模块 视频 空间特征提取
4
一种基于广度视角的虚假新闻检测方法
帖子 视角 快照 语义特征 预训练模型
5
一种基于深度学习与多模态融合的溶栓预测方法
组学特征 图像配准 多模态 分支 线性时间复杂度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号