摘要
本发明公开了一种基于多模态融合的智慧家庭场景理解和交互方法及系统,将采集到的语音数据转换为文本数据,为更有效的理解用户行为和潜在意图,将采集到的图像/视频数据采用多模态视觉大模型进行内容理解,然后利用大语言模型强大的逻辑推理能力,用其对由语音数据转换成的文本数据和通过多模态视觉大模型理解的内容进行信息提取和推理;接着,基于用户交互的内容生成指令,从指令生成可视化提示词,采用多模态视觉大模型根据可视化提示词实施图像/视频内容的实时分割,通过视觉提示词将大语言模型和多模态视觉模型在智能家庭场景用户交互过程中进行融合;最后,将分割图像进行三维处理,基于场景的实时分割实现了与AR/MR场景的深度融合。
技术关键词
多模态
交互方法
大语言模型
交互系统
场景
数据
家庭
生成指令
视频
视觉
图像
文本
多任务
规划
语音
采集单元
坐标
轮廓
意图
系统为您推荐了相关专利信息
图像类别
图像识别分类方法
样本
图像识别分类系统
数据
身份认证模块
健康干预系统
冰箱食材管理
采集单元
视觉
评估系统
数据采集模块
多模态传感器
环境感知数据
动态权重分配