摘要
本申请公开了一种视频分析方法、装置、设备及存储介质,涉及计算机技术领域,公开的方法包括:响应于触发的视频分析指令,通过大语言模型将待分析视频中的图像内容和/或音频内容转换为文本信息;通过大语言模型对文本信息进行语义分析,获得语义分析结果;基于语义分析结果,由大语言模型生成文本信息对应的视频描述信息。本申请利用大语言模型对图像内容或音频内容转换得到的文本信息进行了语义分析,通过由语义分析结果生成的视频描述信息便能够实现对视频内容的深度理解和描述,满足用户需求,从而提高了用户的使用体验。
技术关键词
视频分析方法
大语言模型
文本
语义
发言人
画面
视频分析设备
视频分析装置
视频特征信息
视觉特征
图像
观点
音频
处理器
输出模块
分析模块
可读存储介质
视频帧