摘要
本发明公开了一种基于多模态大模型的盲人辅助交互方法、系统及存储介质,属于人工智能技术领域,所述方法包括:获取用户语音指令以及外部环境图像并对获取到的数据进行预处理;将预处理后的数据输入预先训练的多模态大模型,得到环境理解结果;将所述环境理解结果整合为反馈信息进行语音输出,并根据环境特点调整输出语调;其中,所述预先训练的多模态大模型的获取方法包括:获取历史多模态数据;将所述历史多模态数据输入预先构建的多模态大模型,并通过冻结模型中的基础层对训练中的多模态大模型进行微调,得到训练好的多模态大模型,通过多模态大模型融合多模态信息,准确地识别出用户意图和复杂环境中的对应物体,从而反馈出精确的场景描述。
技术关键词
辅助交互方法
文本反馈信息
文本特征向量
图像特征向量
语音生成模型
文本编码器
图像编码器
场景特征
注意力
图像特征提取
复杂度
融合多模态信息
动态物体
数据
深度卷积神经网络
系统为您推荐了相关专利信息
特征识别模块
包裹
多智能体协同调度
热力图
多模态信息
变化识别方法
时序特征
特征提取网络
形态
图像识别模型
岗位匹配方法
文本特征向量
节点特征
预训练语言模型
融合特征
检索方法
大语言模型
多源遥感图像数据
表达式
文本编码器
多模态医学图像
识别方法
多模态特征融合
特征提取模块
文本编码器