一种基于视觉和大模型的仿真数字人实时智能语音交互系统及其方法

正文

推荐专利

申请号：CN202511245640

申请日期：2025-09-02

公开号：CN120998199A

公开日期：2025-11-21

类型：发明专利

摘要

本发明涉及一种基于视觉和大模型的仿真数字人实时智能语音交互系统及其方法，旨在解决复杂场景下数字人语音交互中目标说话人识别不精准、响应延迟高等问题。系统通过摄像头圈画有效识别范围，结合人脸检测触发音频采集，利用唇动识别、声像融合技术锁定目标说话人并降噪，经语音唤醒转换为文本后，借助大语言模型(LLM)与知识检索增强(RAG)技术生成回答，再通过vLLM加速的语音合成技术生成低延迟语音，驱动预加载的数字人形象合成视频流并实时推送至前端渲染。本发明实现了复杂环境下精确拾音、低延迟交互及数字人形象快速切换，提升了智能语音问答的准确性与实时性，适用于政务大厅、展馆等场景。

技术关键词

智能语音交互系统流媒体服务器音频文本人脸检测算法智能语音交互方法语义音色特征对象降噪算法大语言模型麦克风视频帧唤醒词检测进程模块说话人识别

系统为您推荐了相关专利信息

一种基于多模型融合的文本检索方法和系统

文本检索方法语义多模型子模块文本检索系统

基于大语言模型的智能数据报表生成系统及生成方法

企业知识库大语言模型数据存储模块生成系统数据报表生成方法

基于知识图谱生成问答的方法和装置

检索策略文本分类模型图谱 BERT模型实体识别模型

基于提示学习的业务规则挖掘与业务流程构建的方法

大语言模型业务流程模型金融服务设备文本依赖关系分析

多声道环绕音频系统的控制方法及多声道环绕音频系统

环绕音频系统定位蓝牙设备主播放设备音效多声道

一种基于视觉和大模型的仿真数字人实时智能语音交互系统及其方法

站点导航

APP 下载