基于大模型的多模态语音交互方法、电子设备和存储介质

正文

推荐专利

申请号：CN202510026491

申请日期：2025-01-08

公开号：CN119559946B

公开日期：2025-06-13

类型：发明专利

摘要

本发明提供了一种基于大模型的多模态语音交互方法、电子设备和存储介质，包括：对用户输入的第一语言的语音数据进行语音识别，得到第一语言文本；对所述第一语言文本进行语言翻译，将其翻译为第二语言文本；对所述第二语言文本进行语义分析，得到语义分析结果；基于预设的大模型对所述语义分析结果进行多模态知识图谱构建，得到增强语义理解结果；其中，所述多模态知识图谱融合了与所述第二语言文本相关的多模态信息；生成所述增强语义理解结果的对话策略；基于所述对话策略进行语音合成，生成以所述第一语言表达的回复语音数据。在本发明中，实现了采用多语言进行交互，同时融合了多种模态信息。

技术关键词

对话策略语音交互方法视频特征向量语义图像特征向量文本知识图谱构建意图分类模型多模态自然语言生成技术线性反馈移位寄存器数据加密意图类别生成语音注意力机制深度优先遍历多语言

系统为您推荐了相关专利信息

文本处理方法、装置、电子设备和存储介质

文本处理方法社交风格网络节点指标

一种自动动物图像抠图方法

图像抠图方法注意力语义特征编码特征解码

信息抽取方法、对话方法、电子设备、存储介质及产品

多轮对话预训练语言模型信息抽取方法文本搜索平台

数据存储方法、装置和电子设备

内存对象数据存储方法队列索引

一种车路协同智能感知方法

智能感知方法车辆图像避障路径 YOLO算法

基于大模型的多模态语音交互方法、电子设备和存储介质

站点导航

APP 下载