摘要
本申请提出了一种基于语言驱动的视频阴影检测方法、装置及相关设备,涉及视频处理领域,该方法首先获取目标视频数据以及自然语言指令;对自然语言指令进行解析,确定目标视频数据中的目标检测区域;根据目标检测区域,对每一视频帧进行阴影检测,得到每一视频帧中目标检测区域对应的初始阴影检测结果;将目标视频数据划分成多个记忆片段,每个记忆片段划分为多个连续的记忆块,每个记忆块包括多个连续的视频帧;最后,根据每一视频帧对应的记忆块以及每一视频帧对应的记忆片段,对初始阴影检测结果进行优化,得到每一视频帧中目标检测区域对应的目标阴影检测结果。该方法通过自然语言描述指定视频中的特定阴影区域,能够提高阴影检测的灵活性。
技术关键词
视频帧
视频阴影检测方法
记忆
自然语言
饱和度
图像
注意力
阴影检测装置
HSV颜色空间
数据
指令
分词
大语言模型
解析单元
处理器
可读存储介质
存储器
系统为您推荐了相关专利信息
模型优化系统
对话策略
人工智能语音交互
计算机可执行指令
自然语言
视频防抖方法
运动补偿
运动特征
视频帧
多维特征向量
视频生成方法
滑动窗口
视频生成模型
样本
生成短视频
智能货柜
机器人
服务器
对象配送
软件开发工具包