摘要
本发明提出一种面向多模态大模型的关键帧提取方法,通过用户端与云端的协同计算实现多模态大模型视频数据处理效率与生成质量的提升。其技术方案包括:1)用户端应用提交数据后,接口服务对数据进行初步处理,并将视频帧与音频帧按时序划分并归并为数据片;2)在用户端每个数据片内动态提取n个关键视频帧,并与对应的音频帧压缩打包传输至云端;3)云端对多模态数据进行编码融合后输入大模型生成结果;4)云端评估生成质量,用户端根据生成质量和响应时延自适应调整数据预处理及关键帧提取参数配置。本发明通过降低冗余数据传输与动态优化计算和传输资源,显著提升多模态大模型云服务的响应速度与输出质量。
技术关键词
关键帧提取方法
多模态
音频
优化器
云设备
文本
关键帧提取算法
云端
数据采集模块
云服务架构
视频帧
重复视频
配置算法
数据编码
接口