摘要
本发明提供一种基于多模态大模型的手术视频处理方法及装置,其中,上述方法包括:确定手术视频以及与手术视频相关的原始问题;对手术视频进行拆分,得到固定帧数的多个视频段落;通过预训练的视频编码器对多个视频段落中的每个视频段落进行编码处理,得到抽象特征;通过预设的多模态转换器将抽象特征的空间维度转换至与预设的多模态大模型的空间维度一致,得到处理后的抽象特征;基于处理后的抽象特征与文字辅助描述进行交叉嵌入,得到混合抽象特征;将混合抽象特征与原始问题输入至预设的多模态大模型,得到预设的多模态大模型输出的文字回答内容。通过本发明能够增强模型的交互性和灵活性。
技术关键词
视频编码器
多模态
手术器械标记
文字特征
非暂态计算机可读存储介质
转换器
处理器
生成文字
计算机程序产品
编码模块
交互性
输出模块
存储器
解码器
系统为您推荐了相关专利信息
强化学习模型
布局优化方法
融合特征
状态编码器
多模态特征融合