一种多模态大模型驱动的视频评论与画面精准匹配方法、系统

正文

推荐专利

申请号：CN202411696437

申请日期：2024-11-25

公开号：CN119719794A

公开日期：2025-03-28

类型：发明专利

摘要

本发明公开了一种多模态大模型驱动的视频评论与画面精准匹配方法、系统，包括：S1、将视频和评论分别送入卷积神经网络和循环神经网络，抽取视频关键帧图片和评论文本关键词；S2、将视频关键帧图片送入视觉编码模块进行处理，从视频帧图片中提取视觉特征，将原始视觉数据转换为高维特征向量；S3、将评论文本关键词送入文本编码模块进行处理，提取文本的语义特征，并将其转换为与视觉特征向量相兼容的语义特征向量；S4、通过门控机制对高维特征向量、语义特征向量进行加权融合；S5、将融合后的特征向量送入到Transformer编码器，进行深层次特征提取和转换；S6、将转换后的特征向量、高维特征向量再次进行融合；S7、将第二次融合的输出结果送入评估器中，在评估器中进行匹配度打分，并输出匹配度矩阵。本发明实现了一种创新的视频评论与画面匹配识别技术，能够精准地识别特定评论与视频中关键帧的匹配度。

技术关键词

精准匹配方法高维特征向量多模态文本视频编码模块关键帧画面视觉特征语义特征编码器图片矩阵特征方法关键词注意力机制

一种多模态大模型驱动的视频评论与画面精准匹配方法、系统

站点导航

APP 下载