医疗语音转文本错误纠正方法、装置、设备及介质

正文

推荐专利

申请号：CN202411533295

申请日期：2024-10-29

公开号：CN119252259B

公开日期：2025-09-26

类型：发明专利

摘要

本发明涉及人工智能技术领域，公开了一种医疗语音转文本错误纠正方法、装置、设备及介质，方法包括：构建多模态医疗语音模型，根据视觉语言预训练模型的视觉编码器和文本编码器的参数初始化多模态医疗语音模型，接收配对的医学图像和错误模拟后的文本报告训练多模态医疗语音模型；根据语音转文本模型和训练后的多模态医疗语音模型构建医疗语音转文本错误纠正模型，接收待纠正的语音及其对应的医学图像训练医疗语音转文本错误纠正模型；采用训练后的医疗语音转文本错误纠正模型对输入医疗语音进行医疗语音转文本错误纠正。提升医疗语音转文本的转换效果。

技术关键词

错误纠正方法语音多模态预训练模型文本编码器报告医学图像特征交叉注意力机制视觉图像嵌入嵌入特征可读存储介质纠正装置参数人工智能技术处理器计算机设备

系统为您推荐了相关专利信息

一种用于设计效果呈现的展示系统

展示系统客户多模态交互注视点交互式信息

语音识别训练数据选择方法、装置、终端设备和存储介质

语音识别训练序列标签元素声学特征

一种基于改进TSM-ResNet50时空网络模型的唇语识别系统及方法

门控循环单元网络注意力机制唇语识别系统唇语识别技术识别模块

全息外语学习智能增效系统

增效系统穿戴式通信设备虚拟现实场景听觉情景

基于交叉Transformer的语音去噪方法、控制器及存储介质

语音去噪方法短时傅里叶变换神经网络模型数据编码器

医疗语音转文本错误纠正方法、装置、设备及介质

站点导航

APP 下载