摘要
本发明提供的一种文案与视频分镜素材匹配方法、装置、设备及介质,涉及计算机视觉技术领域,本发明通过获取与待匹配的商品的目标文案信息以及分镜素材视频,对目标文案信息进行细化拆分得到文案拆分信息,对分镜素材视频进行语音转译得到语音转译文本;再分别计算出文案拆分信息与语音转译文本、文案拆分信息与多模态画面描述文本、文案拆分信息与OCR图像文本的相似度,并结合文案拆分信息在所述分镜素材视频的关联度,进行加权求和后得到最终相似度;选取排名前M的分镜素材视频进行合成得到目标视频。本发明从各个角度寻找匹配文本与视频的相似度,得到的目标视频与目标文案信息的相似度高,提高了匹配视频的准确性,满足了用户的个性化需求。
技术关键词
素材匹配方法
文本
画面
计算机可读指令
语音
可读存储介质
校正
计算机视觉技术
视频帧
多模态
匹配设备
图片
自然语言
处理器
存储器
机制
图像