基于多模态语音识别和语义理解的语音问答方法及系统

AITNT
正文
推荐专利
基于多模态语音识别和语义理解的语音问答方法及系统
申请号:CN202510137402
申请日期:2025-02-07
公开号:CN120046107A
公开日期:2025-05-27
类型:发明专利
摘要
本发明公开了基于多模态语音识别和语义理解的语音问答方法及系统。所述方法包括:获取集成的摄像头和多阵列麦克风所采集的现场视觉图像和音频信号,以得到多模态数据;对所述多模态数据进行目标说话人的音频分离和转换,以得到文本内容;对所述文本内容进行语义理解和提问有效性的评估,以得到评估结果;当所述评估结果是文本内容属于有效的提问时,根据所述文本内容生成对应的答案文本;将所述答案文本转换为语音,以得到答案音频;输出所述答案音频。通过实施本发明的方法可实现复杂环境下精准语音交互,显著提升了识别准确性、语义理解能力、用户体验、场景适应性和降低了误识别率。
技术关键词
语音问答方法 多模态语音 文本 答案 现场视觉 音频 语音问答系统 阵列麦克风 波形 转换单元 深度学习融合 有效性 人脸语义 数据获取单元 大语言模型
系统为您推荐了相关专利信息
1
基于多智能体的考生评估方法、系统及电子设备
心理健康 学科知识图谱 大语言模型 计算机程序指令 情绪特征
2
一种语音交互方法和电子设备
语音输入法 语音交互方法 模式 电子设备 字符
3
基于大模型的学习辅助与智能交互系统及方法
知识点 答案 智能交互方法 逻辑 制定学习计划
4
图像描述生成方法、装置、设备以及存储介质
视觉特征 语义特征 检索图像 文本 多模态数据库
5
电力信息网络多源威胁情报分析方法、系统、设备及介质
威胁情报分析方法 实体关系抽取 文本 节点 三元组
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号