摘要
本发明公开了一种多模态大模型驱动的视频评论与画面精准匹配方法、系统,包括:S1、将视频和评论分别送入卷积神经网络和循环神经网络,抽取视频关键帧图片和评论文本关键词;S2、将视频关键帧图片送入视觉编码模块进行处理,从视频帧图片中提取视觉特征,将原始视觉数据转换为高维特征向量;S3、将评论文本关键词送入文本编码模块进行处理,提取文本的语义特征,并将其转换为与视觉特征向量相兼容的语义特征向量;S4、通过门控机制对高维特征向量、语义特征向量进行加权融合;S5、将融合后的特征向量送入到Transformer编码器,进行深层次特征提取和转换;S6、将转换后的特征向量、高维特征向量再次进行融合;S7、将第二次融合的输出结果送入评估器中,在评估器中进行匹配度打分,并输出匹配度矩阵。本发明实现了一种创新的视频评论与画面匹配识别技术,能够精准地识别特定评论与视频中关键帧的匹配度。
技术关键词
精准匹配方法
高维特征向量
多模态
文本
视频
编码模块
关键帧
画面
视觉特征
语义特征
编码器
图片
矩阵
特征方法
关键词
注意力机制