摘要
本发明提供一种语音问答场景下的RAG召回率提升方法及装置,涉及数据处理的技术领域,方法包括:对包含语音识别结果的原始语料进行语义清洗处理,并对清洗后的原始语料进行语义压缩,并利用多个候选嵌入向量生成模型分别执行向量生成操作,输出词向量;针对每个词向量,计算语义保真度得分;对多个语义保真度得分进行评估,选择多个候选嵌入向量生成模型中,语义保真度得分最优的目标嵌入向量生成模型;针对数据输入计算每个词语的词频值与逆文档频率值,判别词语是否为专业热词,筛选出专业热词构建热词词表;将目标嵌入向量生成模型输出的嵌入向量与热词词表联合输入至问答模块,输出目标答案文本。本发明能够提高语音问答场景下的RAG召回率。
技术关键词
问答场景
词语
语音
语义向量
训练样本集
数据
专业
分词
频率
网络接口
机制
输出模块
电子设备
答案
可读存储介质
算法
设备通信
文本
系统为您推荐了相关专利信息
交通安全风险
预警模型
交通事故数据
训练样本集
风险预警方法
生命体征数据
信号异常检测方法
语音识别模块
共享位置信息
信号异常检测装置
语义数据库
语义地图构建方法
图片
多模态
语义向量
语言模型构建方法
智能语音助手
数据采集机构
深度学习算法
内容智能推荐
远程协助系统
营运车辆
车辆自动驾驶系统
车辆运行状态
平台