一种基于多模态大模型的盲人辅助交互方法、系统及存储介质

正文

推荐专利

申请号：CN202411512168

申请日期：2024-10-28

公开号：CN119537909A

公开日期：2025-02-28

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的盲人辅助交互方法、系统及存储介质，属于人工智能技术领域，所述方法包括：获取用户语音指令以及外部环境图像并对获取到的数据进行预处理；将预处理后的数据输入预先训练的多模态大模型，得到环境理解结果；将所述环境理解结果整合为反馈信息进行语音输出，并根据环境特点调整输出语调；其中，所述预先训练的多模态大模型的获取方法包括：获取历史多模态数据；将所述历史多模态数据输入预先构建的多模态大模型，并通过冻结模型中的基础层对训练中的多模态大模型进行微调，得到训练好的多模态大模型，通过多模态大模型融合多模态信息，准确地识别出用户意图和复杂环境中的对应物体，从而反馈出精确的场景描述。

技术关键词

辅助交互方法文本反馈信息文本特征向量图像特征向量语音生成模型文本编码器图像编码器场景特征注意力图像特征提取复杂度融合多模态信息动态物体数据深度卷积神经网络

系统为您推荐了相关专利信息

一种智能AI全自动存取包系统

特征识别模块包裹多智能体协同调度热力图多模态信息

面向序列ISAR图像的时空联合目标形态变化识别方法

变化识别方法时序特征特征提取网络形态图像识别模型

一种人才与岗位匹配方法

岗位匹配方法文本特征向量节点特征预训练语言模型融合特征

基于CoT的多源遥感图像船舰目标实时识别与检索方法

检索方法大语言模型多源遥感图像数据表达式文本编码器

一种基于心脏多模态影像的心肌梗死并发症识别方法

多模态医学图像识别方法多模态特征融合特征提取模块文本编码器

一种基于多模态大模型的盲人辅助交互方法、系统及存储介质

站点导航

APP 下载