适用于盲人眼镜的语音、视频和文本的训练方法

AITNT
正文
推荐专利
适用于盲人眼镜的语音、视频和文本的训练方法
申请号:CN202510379574
申请日期:2025-03-28
公开号:CN120299343A
公开日期:2025-07-11
类型:发明专利
摘要
本发明公开了一种适用于盲人眼镜的语音、视频和文本的训练方法,包括如下步骤:步骤一,对大语言模型进行视觉‑语言对齐训练,使视觉和语言模态之间建立起初步联系,让大语言模型能理解图像语义并通过语言生成相应描述;步骤二,对大语言模型进行音频对齐训练,将音频信息引入多模态模型,使其具备处理语音输入能力。本发明的有益效果在于通过多模态对齐训练,让大语言模型具备理解图像语义、生成描述以及处理语音输入的能力,为盲人眼镜实现语音、视频和文本处理提供有效训练方法,帮助盲人更好地通过语音等方式感知外界信息。
技术关键词
盲人眼镜 大语言模型 语音编码器 视觉特征 文本 视频 生成自然语言 多模态 音频 问答功能 语音特征 语义 图像 调频 标签 序列 时序 数据
系统为您推荐了相关专利信息
1
面向商品评论的基于对比学习的用户个性化偏好建模方法
主题 建模方法 数据 文本 大语言模型
2
一种基于AI的智能化数字档案编研方法
关键词 OCR识别技术 摘要 新词 档案管理系统
3
一种地下管廊运维方案智能生成系统及方法
智能生成系统 智能生成方法 运维 图谱 命名实体识别技术
4
一种基于大模型的住院首次病程录生成方法及系统
病历文书 电子病历系统 生成方法 语义向量 建立映射关系
5
一种家政服务推荐方法、装置、可读介质及电子设备
服务推荐方法 人工智能技术 资源 服务推荐装置 语义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号