基于多模态融合的智慧家庭场景理解与交互方法及系统

正文

推荐专利

申请号：CN202411609796

申请日期：2024-11-12

公开号：CN119398159A

公开日期：2025-02-07

类型：发明专利

摘要

本发明公开了一种基于多模态融合的智慧家庭场景理解和交互方法及系统，将采集到的语音数据转换为文本数据，为更有效的理解用户行为和潜在意图，将采集到的图像/视频数据采用多模态视觉大模型进行内容理解，然后利用大语言模型强大的逻辑推理能力，用其对由语音数据转换成的文本数据和通过多模态视觉大模型理解的内容进行信息提取和推理；接着，基于用户交互的内容生成指令，从指令生成可视化提示词，采用多模态视觉大模型根据可视化提示词实施图像/视频内容的实时分割，通过视觉提示词将大语言模型和多模态视觉模型在智能家庭场景用户交互过程中进行融合；最后，将分割图像进行三维处理，基于场景的实时分割实现了与AR/MR场景的深度融合。

技术关键词

多模态交互方法大语言模型交互系统场景数据家庭生成指令视频视觉图像文本多任务规划语音采集单元坐标轮廓意图

系统为您推荐了相关专利信息

一种多模态视频数据与文本数据混合融合方法及系统

融合方法多路径特征融合视觉特征文本多模态

一种无源持续场景中的域适应图像识别分类方法、存储介质及电子设备

图像类别图像识别分类方法样本图像识别分类系统数据

一种基于低秩压缩的大语言模型加速方法及实现装置

矩阵模型加速方法近似误差近似算法元素

一种冰箱食材管理与健康干预系统及其方法

身份认证模块健康干预系统冰箱食材管理采集单元视觉

一种基于多源数据融合的领航训练效果评估系统及方法

评估系统数据采集模块多模态传感器环境感知数据动态权重分配

基于多模态融合的智慧家庭场景理解与交互方法及系统

站点导航

APP 下载