基于多模态大语言模型的媒体文件无障碍描述的生成方法

正文

推荐专利

申请号：CN202410914279

申请日期：2024-07-09

公开号：CN119003803A

公开日期：2024-11-22

类型：发明专利

摘要

本发明公开了基于多模态大语言模型的媒体文件无障碍描述的生成方法，为视频或音频等媒体文件生成字幕、生成音频部分的文字描述、生成视频部分的文字描述；以及为视频等媒体文件提供同步的视频内容的语音描述。本发明通过使用多模态大语言模型，能够准确且高效地为视频或音频等媒体文件生成替代文件，从而直接并有效地帮助残障人士等群体(如失明和弱视、耳聋和听力丧失、以及有学习障碍和认知局限的人等)无障碍地理解视频或音频等媒体文件的内容，保障他们平等获取信息和参与社会生活的权利。本发明不仅提高了媒体文件的可访问性，还提升了信息传递的准确性和效率。

技术关键词

大语言模型关键帧生成方法多模态颜色直方图音频视频同步生成字幕文件视频帧图像处理模型语音自然语言校正无障碍地指数多语言

基于多模态大语言模型的媒体文件无障碍描述的生成方法

站点导航

APP 下载