摘要
本发明提出一种基于多模态大模型的视频检索问答方法及系统,属于人工智能技术领域,包括:获取视频文件,并进行通道拆分得到视频信息和音频信息;将视频信息进行分解得到多段视频片段列表;将音频信息分解得到字幕信息;根据视频片段列表和字幕信息的时间戳进行优化对齐得到视频片段和字幕文本;使用多模态模型对帧列表和字幕文本进行向量化处理,并连同源信息一同存入向量数据库;通过混合搜索的方式将用户的问题在数据库中检索,得到相似性最高的视频及文本,通过多模态大模型根据检索到的视频进行用户问题解答,旨在实现视频内容的快速理解问答,可以实现更强精确的视频搜索、片段定位及视频信息问答。
技术关键词
问答方法
多模态
列表
文本
关键帧提取算法
音频
时间段
可读存储介质
计算机程序指令
生成字幕
答案
视频搜索
存储计算机程序
人工智能技术
问答系统
对齐模块
电子设备
系统为您推荐了相关专利信息
跨媒体检索方法
图像编码器
跨媒体数据
多角度
多媒体信息检索技术
数据传输方法
数字孪生模型
深度学习模型
云端
多模态