多轮实时多模态大模型交互方法、相关装置及存储介质

正文

推荐专利

申请号：CN202510897925

申请日期：2025-07-01

公开号：CN120407854B

公开日期：2025-11-25

类型：发明专利

摘要

本申请实施例涉及人工智能领域，提供一种多轮实时多模态大模型交互方法、相关装置及存储介质，多轮实时多模态大模型交互方法包括：将第一目标音频转换为文本，得到第一目标任务描述文本；基于第一目标视频确定第一关键帧图像集合；对第一关键帧图像集合中的各个关键帧图像进行图像分割，得到第一关键帧图像集合中各个关键帧图像的图像分割结果，图像分割结果包括多个图像分割区域和对应的区域标签；基于目标多模态大模型处理第一目标任务描述文本和第一关键帧图像集合中的各个关键帧图像的图像分割结果，得到第一输出文本；将第一输出文本转换为语音，得到第一输出音频。本申请能够提高多模态大模型交互的准确率。

技术关键词

关键帧图像分割视频帧集合多模态交互方法文本音频计算机程序产品交互装置解码模块编码模块聚类处理器语音标签

系统为您推荐了相关专利信息

一种物联网多模态监测数据优化传输方法

优化传输方法邻域序列多模态冷链运输车

基于多模态数据的诊疗交互系统及方法

交互系统意图识别模型多模态特征实时数据采集非暂态计算机可读介质

一种适用于肺隐球菌病患者的辅助阅片系统

辅助阅片 CT切片图像血管像素点序列

一种多模态传感离子导电弹性体及其制备方法与应用

离子导电聚氨酯弹性体多模态二甲基甲酰胺传感

一种积液引流抽取设备及其使用方法

微型压力传感器微型流量传感器电容式液位传感器积液抽取设备

多轮实时多模态大模型交互方法、相关装置及存储介质

站点导航

APP 下载