摘要
本发明公开了基于多模态大语言模型的媒体文件无障碍描述的生成方法,为视频或音频等媒体文件生成字幕、生成音频部分的文字描述、生成视频部分的文字描述;以及为视频等媒体文件提供同步的视频内容的语音描述。本发明通过使用多模态大语言模型,能够准确且高效地为视频或音频等媒体文件生成替代文件,从而直接并有效地帮助残障人士等群体(如失明和弱视、耳聋和听力丧失、以及有学习障碍和认知局限的人等)无障碍地理解视频或音频等媒体文件的内容,保障他们平等获取信息和参与社会生活的权利。本发明不仅提高了媒体文件的可访问性,还提升了信息传递的准确性和效率。
技术关键词
大语言模型
关键帧
生成方法
多模态
颜色直方图
音频
视频同步
生成字幕文件
视频帧
图像处理模型
语音
自然语言
校正
无障碍地
指数
多语言