基于大模型的多模态语音交互方法、电子设备和存储介质

AITNT
正文
推荐专利
基于大模型的多模态语音交互方法、电子设备和存储介质
申请号:CN202510026491
申请日期:2025-01-08
公开号:CN119559946B
公开日期:2025-06-13
类型:发明专利
摘要
本发明提供了一种基于大模型的多模态语音交互方法、电子设备和存储介质,包括:对用户输入的第一语言的语音数据进行语音识别,得到第一语言文本;对所述第一语言文本进行语言翻译,将其翻译为第二语言文本;对所述第二语言文本进行语义分析,得到语义分析结果;基于预设的大模型对所述语义分析结果进行多模态知识图谱构建,得到增强语义理解结果;其中,所述多模态知识图谱融合了与所述第二语言文本相关的多模态信息;生成所述增强语义理解结果的对话策略;基于所述对话策略进行语音合成,生成以所述第一语言表达的回复语音数据。在本发明中,实现了采用多语言进行交互,同时融合了多种模态信息。
技术关键词
对话策略 语音交互方法 视频特征向量 语义 图像特征向量 文本 知识图谱构建 意图分类模型 多模态 自然语言生成技术 线性反馈移位寄存器 数据加密 意图类别 生成语音 注意力机制 深度优先遍历 多语言
系统为您推荐了相关专利信息
1
文本处理方法、装置、电子设备和存储介质
文本处理方法 社交 风格 网络节点 指标
2
一种自动动物图像抠图方法
图像抠图方法 注意力 语义特征 编码特征 解码
3
信息抽取方法、对话方法、电子设备、存储介质及产品
多轮对话 预训练语言模型 信息抽取方法 文本 搜索平台
4
数据存储方法、装置和电子设备
内存 对象 数据存储方法 队列 索引
5
一种车路协同智能感知方法
智能感知方法 车辆 图像 避障路径 YOLO算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号