摘要
本发明公开了一种基于多模态大模型的直播视频流分析方法及系统,主要涉及多模态的图片分析技术领域。包括:启动流媒体服务器、ASR服务以及多模态模型服务;在所述流媒体服务器中创建房间,通过直播客户端将直播的视频流推送到所述房间;利用Python脚本连接至所述流媒体服务器的房间;所述音频监听线程对监听到的音频帧进行降噪和人声检测;将拼接后的文本及图片数组通过HTTP请求发送至所述多模态模型服务进行分析,获取分析结果并返回给用户。本发明的有益效果在于:它解决了直播视频流中音频流分析及视频流分析关联性低的问题。
技术关键词
视频流分析方法
流媒体服务器
多模态
音频
房间
人声
标志位
短时傅里叶变换
HTTP请求
图片分析技术
深度神经网络
分析系统
视频帧
估计噪声功率
文本
客户端
系统为您推荐了相关专利信息
马尔可夫逻辑网络
数据智能分析方法
关系抽取技术
CRF模型
构建知识图谱
软件漏洞检测方法
多模态
混合专家网络
融合策略
软件漏洞检测技术