摘要
本发明涉及人工智能技术领域,公开了一种医疗语音转文本错误纠正方法、装置、设备及介质,方法包括:构建多模态医疗语音模型,根据视觉语言预训练模型的视觉编码器和文本编码器的参数初始化多模态医疗语音模型,接收配对的医学图像和错误模拟后的文本报告训练多模态医疗语音模型;根据语音转文本模型和训练后的多模态医疗语音模型构建医疗语音转文本错误纠正模型,接收待纠正的语音及其对应的医学图像训练医疗语音转文本错误纠正模型;采用训练后的医疗语音转文本错误纠正模型对输入医疗语音进行医疗语音转文本错误纠正。提升医疗语音转文本的转换效果。
技术关键词
错误纠正方法
语音
多模态
预训练模型
文本编码器
报告
医学图像特征
交叉注意力机制
视觉
图像嵌入
嵌入特征
可读存储介质
纠正装置
参数
人工智能技术
处理器
计算机设备
系统为您推荐了相关专利信息
门控循环单元网络
注意力机制
唇语识别系统
唇语识别技术
识别模块
增效系统
穿戴式通信设备
虚拟现实场景
听觉
情景
语音去噪方法
短时傅里叶变换
神经网络模型
数据
编码器