基于多模态融合的智慧家庭场景理解与交互方法及系统

AITNT
正文
推荐专利
基于多模态融合的智慧家庭场景理解与交互方法及系统
申请号:CN202411609796
申请日期:2024-11-12
公开号:CN119398159A
公开日期:2025-02-07
类型:发明专利
摘要
本发明公开了一种基于多模态融合的智慧家庭场景理解和交互方法及系统,将采集到的语音数据转换为文本数据,为更有效的理解用户行为和潜在意图,将采集到的图像/视频数据采用多模态视觉大模型进行内容理解,然后利用大语言模型强大的逻辑推理能力,用其对由语音数据转换成的文本数据和通过多模态视觉大模型理解的内容进行信息提取和推理;接着,基于用户交互的内容生成指令,从指令生成可视化提示词,采用多模态视觉大模型根据可视化提示词实施图像/视频内容的实时分割,通过视觉提示词将大语言模型和多模态视觉模型在智能家庭场景用户交互过程中进行融合;最后,将分割图像进行三维处理,基于场景的实时分割实现了与AR/MR场景的深度融合。
技术关键词
多模态 交互方法 大语言模型 交互系统 场景 数据 家庭 生成指令 视频 视觉 图像 文本 多任务 规划 语音 采集单元 坐标 轮廓 意图
系统为您推荐了相关专利信息
1
一种多模态视频数据与文本数据混合融合方法及系统
融合方法 多路径特征融合 视觉特征 文本 多模态
2
一种无源持续场景中的域适应图像识别分类方法、存储介质及电子设备
图像类别 图像识别分类方法 样本 图像识别分类系统 数据
3
一种基于低秩压缩的大语言模型加速方法及实现装置
矩阵 模型加速方法 近似误差 近似算法 元素
4
一种冰箱食材管理与健康干预系统及其方法
身份认证模块 健康干预系统 冰箱食材管理 采集单元 视觉
5
一种基于多源数据融合的领航训练效果评估系统及方法
评估系统 数据采集模块 多模态传感器 环境感知数据 动态权重分配
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号