摘要
本发明涉及一种基于视觉和大模型的仿真数字人实时智能语音交互系统及其方法,旨在解决复杂场景下数字人语音交互中目标说话人识别不精准、响应延迟高等问题。系统通过摄像头圈画有效识别范围,结合人脸检测触发音频采集,利用唇动识别、声像融合技术锁定目标说话人并降噪,经语音唤醒转换为文本后,借助大语言模型(LLM)与知识检索增强(RAG)技术生成回答,再通过vLLM加速的语音合成技术生成低延迟语音,驱动预加载的数字人形象合成视频流并实时推送至前端渲染。本发明实现了复杂环境下精确拾音、低延迟交互及数字人形象快速切换,提升了智能语音问答的准确性与实时性,适用于政务大厅、展馆等场景。
技术关键词
智能语音交互系统
流媒体服务器
音频
文本
人脸检测算法
智能语音交互方法
语义
音色特征
对象
降噪算法
大语言模型
麦克风
视频帧
唤醒词检测
进程
模块
说话人识别
系统为您推荐了相关专利信息
企业知识库
大语言模型
数据存储模块
生成系统
数据报表生成方法
检索策略
文本分类模型
图谱
BERT模型
实体识别模型
大语言模型
业务流程模型
金融服务设备
文本
依赖关系分析
环绕音频系统
定位蓝牙设备
主播放设备
音效
多声道