摘要
本发明公开了一种基于RAG的领域化语音识别方法及系统,该方法包括获取原始领域文档集,通过主题分类、段落切分和句子切分构建分层文档结构,执行向量化处理生成多粒度向量矩阵集,建立层次化知识向量索引结构;对实时音频流进行多尺度时频分析,提取并增强声学特征,生成多尺度特征张量;对特征张量执行自适应分块和递进式注意力处理,构建概率估计模型,生成候选文本序列;基于多维查询向量在知识索引中执行多层检索,生成相关知识片段;对特征进行空间映射和动态注意力处理,执行概率优化解码得到最终识别文本。本发明通过知识增强和多层次特征处理,提升了专业领域语音识别的准确性和鲁棒性。
技术关键词
矩阵
语音识别方法
频谱特征
注意力
生成主题
序列
索引
文本
MFCC特征
上下文特征
分块
动态规划算法
融合特征
多尺度特征
事件特征
层级
语义
声学特征
系统为您推荐了相关专利信息
时序
生成对抗网络
卡尔曼滤波算法
SVM算法
负荷预测方法
图像特征描述子
监控方法
准确位置信息
特征点集合
动物