摘要
本申请涉及一种基于视觉问答的盲人智能视觉辅助方法。该方法包括:在移动终端接收到用户佩戴的盲人辅助眼镜采集到的场景图像和用户提问的语音信息的情况下,向服务器传输所述场景图像和用户提问的语音信息,在所述服务器接收到所述场景图像和用户提问的语音信息的情况下,将所述用户提问的语音信息进行文本转换,获得文本数据,所述服务器将所述文本数据和所述场景图像输入到视觉问答模型中,通过所述视觉问答模型根据所述场景图像对所述用户提问进行解答,输出答案,所述服务器向所述移动终端发送所述答案,使所述移动终端将所述答案发送至盲人辅助眼镜通过语音播报的方式呈现给用户,提高了用户交互效果。
技术关键词
盲人辅助眼镜
视觉问答模型
视觉辅助方法
移动终端
文本
服务器
答案
语音
图像编码器
场景
注意力机制
对齐模块
过滤模块
上采样
视觉辅助系统
多模态
解码器
系统为您推荐了相关专利信息
翻译方法
文本
页面
图像匹配
非暂态计算机可读存储介质
多模态融合技术
会议
音频特征
注意力机制
可读存储介质
深度学习训练方法
阶段
傅里叶变换技术
对象
多模态数据融合
广告主
情感特征
声学特征
面部表情特征
多模态情感分析