适用于盲人眼镜的语音、视频和文本的训练方法

正文

推荐专利

申请号：CN202510379574

申请日期：2025-03-28

公开号：CN120299343A

公开日期：2025-07-11

类型：发明专利

摘要

本发明公开了一种适用于盲人眼镜的语音、视频和文本的训练方法，包括如下步骤：步骤一，对大语言模型进行视觉‑语言对齐训练，使视觉和语言模态之间建立起初步联系，让大语言模型能理解图像语义并通过语言生成相应描述；步骤二，对大语言模型进行音频对齐训练，将音频信息引入多模态模型，使其具备处理语音输入能力。本发明的有益效果在于通过多模态对齐训练，让大语言模型具备理解图像语义、生成描述以及处理语音输入的能力，为盲人眼镜实现语音、视频和文本处理提供有效训练方法，帮助盲人更好地通过语音等方式感知外界信息。

技术关键词

盲人眼镜大语言模型语音编码器视觉特征文本视频生成自然语言多模态音频问答功能语音特征语义图像调频标签序列时序数据

系统为您推荐了相关专利信息

面向商品评论的基于对比学习的用户个性化偏好建模方法

主题建模方法数据文本大语言模型

一种基于AI的智能化数字档案编研方法

关键词 OCR识别技术摘要新词档案管理系统

一种地下管廊运维方案智能生成系统及方法

智能生成系统智能生成方法运维图谱命名实体识别技术

一种基于大模型的住院首次病程录生成方法及系统

病历文书电子病历系统生成方法语义向量建立映射关系

一种家政服务推荐方法、装置、可读介质及电子设备

服务推荐方法人工智能技术资源服务推荐装置语义

适用于盲人眼镜的语音、视频和文本的训练方法

站点导航

APP 下载