摘要
本公开涉及智能交互技术领域,尤其涉及一种视频播放互动方法、装置、设备及存储介质,该方法包括:响应于用户的实时互动指令,获取当前视频播放界面中所播放视频的画面截图;获取用户的语音提问信息;基于所述画面截图以及所述语音提问信息,生成所述语音提问信息对应的回答信息;将所述回答信息展示在所述视频播放界面中。本公开通过语音提问信息进行搜索,保证用户的视频观看体验,同时基于视频的画面截图以及用户的语音提问信息共同生成回答信息,利用多模态的信息使得所生成的回答信息更加丰富与准确,提高了互动过程的灵活性。
技术关键词
视频播放界面
画面
互动方法
大语言模型
视频观看体验
智能交互技术
多模态
语音识别功能
互动装置
外接设备
快捷键
处理器
指令
可读存储介质
模块
存储器
入口
电子设备
系统为您推荐了相关专利信息
质检模型
图像
大语言模型
指令优化
计算机可执行指令
多智能体协作
反馈规则
协作博弈
标准化模板
指令