摘要
本发明公开了基于多模态语音识别和语义理解的语音问答方法及系统。所述方法包括:获取集成的摄像头和多阵列麦克风所采集的现场视觉图像和音频信号,以得到多模态数据;对所述多模态数据进行目标说话人的音频分离和转换,以得到文本内容;对所述文本内容进行语义理解和提问有效性的评估,以得到评估结果;当所述评估结果是文本内容属于有效的提问时,根据所述文本内容生成对应的答案文本;将所述答案文本转换为语音,以得到答案音频;输出所述答案音频。通过实施本发明的方法可实现复杂环境下精准语音交互,显著提升了识别准确性、语义理解能力、用户体验、场景适应性和降低了误识别率。
技术关键词
语音问答方法
多模态语音
文本
答案
现场视觉
音频
语音问答系统
阵列麦克风
波形
转换单元
深度学习融合
有效性
人脸语义
数据获取单元
大语言模型
系统为您推荐了相关专利信息
心理健康
学科知识图谱
大语言模型
计算机程序指令
情绪特征
威胁情报分析方法
实体关系抽取
文本
节点
三元组