基于视觉问答的盲人智能视觉辅助方法和系统

正文

推荐专利

申请号：CN202410942598

申请日期：2024-07-15

公开号：CN119046414A

公开日期：2024-11-29

类型：发明专利

摘要

本申请涉及一种基于视觉问答的盲人智能视觉辅助方法。该方法包括：在移动终端接收到用户佩戴的盲人辅助眼镜采集到的场景图像和用户提问的语音信息的情况下，向服务器传输所述场景图像和用户提问的语音信息，在所述服务器接收到所述场景图像和用户提问的语音信息的情况下，将所述用户提问的语音信息进行文本转换，获得文本数据，所述服务器将所述文本数据和所述场景图像输入到视觉问答模型中，通过所述视觉问答模型根据所述场景图像对所述用户提问进行解答，输出答案，所述服务器向所述移动终端发送所述答案，使所述移动终端将所述答案发送至盲人辅助眼镜通过语音播报的方式呈现给用户，提高了用户交互效果。

技术关键词

盲人辅助眼镜视觉问答模型视觉辅助方法移动终端文本服务器答案语音图像编码器场景注意力机制对齐模块过滤模块上采样视觉辅助系统多模态解码器

系统为您推荐了相关专利信息

空调器

空调器语音采集模块训练集文本采集环境参数

翻译方法及装置

翻译方法文本页面图像匹配非暂态计算机可读存储介质

一种督查督办任务的处理方法、装置、设备及介质

多模态融合技术会议音频特征注意力机制可读存储介质

一种基于多模态数据的多阶段深度学习训练方法

深度学习训练方法阶段傅里叶变换技术对象多模态数据融合

一种广告投放管理平台及其管理终端

广告主情感特征声学特征面部表情特征多模态情感分析

基于视觉问答的盲人智能视觉辅助方法和系统

站点导航

APP 下载