基于多模态语音识别和语义理解的语音问答方法及系统

正文

推荐专利

申请号：CN202510137402

申请日期：2025-02-07

公开号：CN120046107A

公开日期：2025-05-27

类型：发明专利

摘要

本发明公开了基于多模态语音识别和语义理解的语音问答方法及系统。所述方法包括：获取集成的摄像头和多阵列麦克风所采集的现场视觉图像和音频信号，以得到多模态数据；对所述多模态数据进行目标说话人的音频分离和转换，以得到文本内容；对所述文本内容进行语义理解和提问有效性的评估，以得到评估结果；当所述评估结果是文本内容属于有效的提问时，根据所述文本内容生成对应的答案文本；将所述答案文本转换为语音，以得到答案音频；输出所述答案音频。通过实施本发明的方法可实现复杂环境下精准语音交互，显著提升了识别准确性、语义理解能力、用户体验、场景适应性和降低了误识别率。

技术关键词

语音问答方法多模态语音文本答案现场视觉音频语音问答系统阵列麦克风波形转换单元深度学习融合有效性人脸语义数据获取单元大语言模型

系统为您推荐了相关专利信息

基于多智能体的考生评估方法、系统及电子设备

心理健康学科知识图谱大语言模型计算机程序指令情绪特征

一种语音交互方法和电子设备

语音输入法语音交互方法模式电子设备字符

基于大模型的学习辅助与智能交互系统及方法

知识点答案智能交互方法逻辑制定学习计划

图像描述生成方法、装置、设备以及存储介质

视觉特征语义特征检索图像文本多模态数据库

电力信息网络多源威胁情报分析方法、系统、设备及介质

威胁情报分析方法实体关系抽取文本节点三元组

基于多模态语音识别和语义理解的语音问答方法及系统

站点导航

APP 下载