摘要
本发明提供了一种基于大模型的多模态语音交互方法、电子设备和存储介质,包括:对用户输入的第一语言的语音数据进行语音识别,得到第一语言文本;对所述第一语言文本进行语言翻译,将其翻译为第二语言文本;对所述第二语言文本进行语义分析,得到语义分析结果;基于预设的大模型对所述语义分析结果进行多模态知识图谱构建,得到增强语义理解结果;其中,所述多模态知识图谱融合了与所述第二语言文本相关的多模态信息;生成所述增强语义理解结果的对话策略;基于所述对话策略进行语音合成,生成以所述第一语言表达的回复语音数据。在本发明中,实现了采用多语言进行交互,同时融合了多种模态信息。
技术关键词
对话策略
语音交互方法
视频特征向量
语义
图像特征向量
文本
知识图谱构建
意图分类模型
多模态
自然语言生成技术
线性反馈移位寄存器
数据加密
意图类别
生成语音
注意力机制
深度优先遍历
多语言
系统为您推荐了相关专利信息
多轮对话
预训练语言模型
信息抽取方法
文本
搜索平台