摘要
本发明公开了一种适用于盲人眼镜的语音、视频和文本的训练方法,包括如下步骤:步骤一,对大语言模型进行视觉‑语言对齐训练,使视觉和语言模态之间建立起初步联系,让大语言模型能理解图像语义并通过语言生成相应描述;步骤二,对大语言模型进行音频对齐训练,将音频信息引入多模态模型,使其具备处理语音输入能力。本发明的有益效果在于通过多模态对齐训练,让大语言模型具备理解图像语义、生成描述以及处理语音输入的能力,为盲人眼镜实现语音、视频和文本处理提供有效训练方法,帮助盲人更好地通过语音等方式感知外界信息。
技术关键词
盲人眼镜
大语言模型
语音编码器
视觉特征
文本
视频
生成自然语言
多模态
音频
问答功能
语音特征
语义
图像
调频
标签
序列
时序
数据
系统为您推荐了相关专利信息
智能生成系统
智能生成方法
运维
图谱
命名实体识别技术
病历文书
电子病历系统
生成方法
语义向量
建立映射关系
服务推荐方法
人工智能技术
资源
服务推荐装置
语义