一种基于多模态大模型的视频检索问答方法及系统

正文

推荐专利

申请号：CN202411116662

申请日期：2024-08-15

公开号：CN118626673A

公开日期：2024-09-10

类型：发明专利

摘要

本发明提出一种基于多模态大模型的视频检索问答方法及系统，属于人工智能技术领域，包括：获取视频文件，并进行通道拆分得到视频信息和音频信息；将视频信息进行分解得到多段视频片段列表；将音频信息分解得到字幕信息；根据视频片段列表和字幕信息的时间戳进行优化对齐得到视频片段和字幕文本；使用多模态模型对帧列表和字幕文本进行向量化处理，并连同源信息一同存入向量数据库；通过混合搜索的方式将用户的问题在数据库中检索，得到相似性最高的视频及文本，通过多模态大模型根据检索到的视频进行用户问题解答，旨在实现视频内容的快速理解问答，可以实现更强精确的视频搜索、片段定位及视频信息问答。

技术关键词

问答方法多模态列表文本关键帧提取算法音频时间段可读存储介质计算机程序指令生成字幕答案视频搜索存储计算机程序人工智能技术问答系统对齐模块电子设备

系统为您推荐了相关专利信息

基于自适应提示与隐式知识增强的跨媒体检索方法及系统

跨媒体检索方法图像编码器跨媒体数据多角度多媒体信息检索技术

一种医学长文本问答方法、装置、电子设备及存储介质

问答方法大语言模型文本语义注意力

一种面向电费智能问答的层次化知识网络构建与检索方法

实体检索方法记忆网络语义

一种面向动态时变场景的数字孪生数据传输方法及系统

数据传输方法数字孪生模型深度学习模型云端多模态

结合AI Agent的暗网领域知识图谱构建与检索的方法及系统

知识图谱构建实体关系文本数据库查询语句

一种基于多模态大模型的视频检索问答方法及系统

站点导航

APP 下载