语音识别 (ASR)
MediaPipe4USpeech 提供了语音识别(ASR)方案,支持实时的,离线的,低延迟的语音识别。
MediaPipe4USpeech ASR 提供以下功能:
- 离线语音,本地通过 CPU 推理的语音识别方案。
- VAD,算法 + AI 模型的双重人声检测,大幅降低误识别的概率。
- 标点恢复,基于 AI 模型的语音识别后标点恢复,生成带有标点的文本。
- 开发自定义语音识别时,支持任意音频采样率和通道数的重采样。
- 音频算法降噪,非 AI 的纯数学算法降噪,可以在一定程度过滤环境噪音。
- 语音识别接口,方便集成第三方的语音识别服务。
Table of contents