一种基于多模态大模型的盲人辅助交互方法、系统及存储介质

AITNT
正文
推荐专利
一种基于多模态大模型的盲人辅助交互方法、系统及存储介质
申请号:CN202411512168
申请日期:2024-10-28
公开号:CN119537909A
公开日期:2025-02-28
类型:发明专利
摘要
本发明公开了一种基于多模态大模型的盲人辅助交互方法、系统及存储介质,属于人工智能技术领域,所述方法包括:获取用户语音指令以及外部环境图像并对获取到的数据进行预处理;将预处理后的数据输入预先训练的多模态大模型,得到环境理解结果;将所述环境理解结果整合为反馈信息进行语音输出,并根据环境特点调整输出语调;其中,所述预先训练的多模态大模型的获取方法包括:获取历史多模态数据;将所述历史多模态数据输入预先构建的多模态大模型,并通过冻结模型中的基础层对训练中的多模态大模型进行微调,得到训练好的多模态大模型,通过多模态大模型融合多模态信息,准确地识别出用户意图和复杂环境中的对应物体,从而反馈出精确的场景描述。
技术关键词
辅助交互方法 文本反馈信息 文本特征向量 图像特征向量 语音生成模型 文本编码器 图像编码器 场景特征 注意力 图像特征提取 复杂度 融合多模态信息 动态物体 数据 深度卷积神经网络
系统为您推荐了相关专利信息
1
一种智能AI全自动存取包系统
特征识别模块 包裹 多智能体协同调度 热力图 多模态信息
2
面向序列ISAR图像的时空联合目标形态变化识别方法
变化识别方法 时序特征 特征提取网络 形态 图像识别模型
3
一种人才与岗位匹配方法
岗位匹配方法 文本特征向量 节点特征 预训练语言模型 融合特征
4
基于CoT的多源遥感图像船舰目标实时识别与检索方法
检索方法 大语言模型 多源遥感图像数据 表达式 文本编码器
5
一种基于心脏多模态影像的心肌梗死并发症识别方法
多模态医学图像 识别方法 多模态特征融合 特征提取模块 文本编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号