摘要
本发明提供了一种语音通话实时转写系统及方法,涉及计算机技术领域,所述系统包括:网元模块用于当检测到用户端的通话请求时,获取对应的音频数据;语音送流引擎,用于基于预设感知加权矢量量化算法,对音频数据进行分层压缩,得到音频压缩数据,并对音频压缩数据进行格式转化处理,得到临时音频数据;语音引擎,用于对临时音频数据进行特征提取,得到多模态特征数据,并基于预设的语音识别模型对多模态特征数据进行处理,得到文本信息;分析优化模块,用于基于预设大模型,根据文本信息和预设词汇库得到对应的实时转写文本数据。本发明通过利用多模态特征数据,全面表征语音信息,使得语音识别模型能够更准确地进行语音到文本的转换。
技术关键词
数据
多模态特征
音频
动态资源分配
矢量量化算法
语音识别模型
文本
声纹特征
关键词
字幕
转写方法
MFCC特征
QoS等级
CRF模型
模块
网元
机器学习算法
术语
系统为您推荐了相关专利信息
链路
时延
分类阈值
混合聚类算法
网络层析成像技术
水质预测方法
供水管
网络结构信息
空间拓扑结构
节点特征
复合机器学习模型
状态预测方法
信号
激光
融合特征