voiceai

Banner Image

English version 中文版本

一条精心整理的、面向开发者的学习路径:从第一次调用 STT,到把生产级电话语音智能体规模化上线。

语音智能体在不到三年里已从研究演示走进真实产品。现代技术栈正收敛为一种清晰范式:实时传输层(WebRTC 或电话网)、语音转文字 → 大语言模型 → 文字转语音的流式流水线,以及决定语音智能体何时开口的话轮模型。本清单的结构刻意贴近这一学习顺序——先打基础,再选框架,然后深入各组件与上线相关议题。

资源标注为 🟢 入门🟡 进阶🔴 高阶。优先收录免费官方文档与厂商中立指南;条目若存在商业背景会明确标注


如何使用本清单

若你是全新入门,建议自上而下阅读。推荐路径:

  1. 基础 → 理解流水线与延迟预算
  2. 框架 → 选定一个(开源最稳妥的选择是 LiveKit Agents 或 Pipecat),先跑通 hello-world
  3. 组件(STT、TTS、LLM、VAD、话轮检测)→ 替换各层以理解其作用
  4. 传输与电话 → 对接真实电话号码
  5. 评测、生产、伦理 → 把它做得足够安全、可以对外发布

目录

  1. 基础概念与学习路径
  2. 框架与编排平台
  3. 语音转文字(STT / ASR)
  4. 文字转语音(TTS)
  5. 面向语音智能体与实时场景的 LLM
  6. 语音活动检测与话轮转换
  7. WebRTC 基础
  8. 电话与 SIP
  9. 教程与动手项目
  10. GitHub 入门仓库与 Awesome 列表
  11. 数据集与基准
  12. 对初学者友好的研究论文
  13. 评测与测试
  14. 生产、部署与扩展
  15. 伦理、安全与监管
  16. 博客与通讯
  17. 播客
  18. 社区
  19. 会议与活动
  20. 黑客松与竞赛

1. 基础概念与学习路径

从这里开始。下列资源帮你建立语音智能体流水线的心智模型,以及职业生涯里会持续打交道的延迟预算

2. 框架与编排平台

下列框架都能把 STT、LLM 与 TTS 串起来。若走开源生产路线,LiveKit Agents 与 Pipecat 通常是最稳妥的两款框架;若偏好托管控制台,Vapi、Retell、Bland 在「从 0 到第一次通话」上非常省时。

开源框架

托管平台

实时 / 语音到语音 API

厂商中立对比

3. 语音转文字(STT / ASR)

先选定一种流式 STT 并学深,再四处比价。Deepgram、AssemblyAI 与 Whisper 衍生方案已覆盖多数场景。

商业 API

开源

基准与讲解

4. 文字转语音(TTS)

拖垮语音智能体的往往是延迟,而非单纯音质——应优先选择真正的流式输出、首字节在 200 ms 以内的供应商。

商业 API

开源

流式与伦理

5. 面向语音智能体与实时场景的 LLM

用户感知的「是否聪明」很大程度上取决于 LLM 能多快开始输出第一个 token。首 token 时延(TTFT)低于约 300 ms 会显著改变对话体感。

低延迟推理

语音到语音模型

面向语音智能体的提示与工具

6. 语音活动检测与话轮转换

仅靠传统 VAD 已不够——现代方案往往把声学 VAD与预测话末的小型语义模型(结合用词与韵律)结合起来。

7. WebRTC 基础

对不走电话网的语音智能体,WebRTC 是默认传输。要做生产,ICE、STUN、TURN 与 SFU 架构不可不晓。

8. 电话与 SIP

电话网与互联网链路上的语音环境、协议与约束各不相同。理清 SIP 中继如何接入你所用的语音栈(例如基于 LiveKit 或 Pipecat 的部署),才能稳定连接 PSTN。

9. 教程与动手项目

选定一篇教程并做完再开下一篇。语音智能体对「半成品流水线」极不宽容。

10. GitHub 入门仓库与 Awesome 列表

与其从零写样板,不如直接 clone。

11. 数据集与基准

你很少从零训练,但模型在哪些数据上训练决定了口音、语言与典型失效模式。

12. 对初学者友好的研究论文

这些是你实际会用到的模型背后的里程碑论文。建议先看 Whisper 与 Common Voice 两篇——文笔在机器学习论文里算格外友好。

13. 评测与测试

不能度量就无法交付。语音智能体评测本质上带有随机性——同一转写在不同次运行中可能过也可能不过,因此仿真与统计比固定用例更重要。

14. 生产、部署与扩展

语音智能体的生产级基础设施仍是本领域最难且未完全标准化的问题。在给人报「每分钟多少钱」之前,建议先读这些。

15. 伦理、安全与监管

若在 2026 年对外发布语音智能体,披露与同意已不再是可选项。FCC 与欧盟《人工智能法》均有实质约束力。

16. 博客与通讯

订阅两三份即可跟上节奏——领域变化很快。

17. 播客

18. 社区

19. 会议与活动

20. 黑客松与竞赛


建议学习路径

  1. 第 1 周——基础: 阅读 LiveKit 流水线文章与《语音智能体图解入门》(第 1、7 节)。
  2. 第 2 周——首个语音智能体: 完整跑通 LiveKit Pipecat 快速入门(第 2、9 节)。
  3. 第 3 周——组件: 替换 STT、TTS、LLM 供应商;对延迟做基准测试(第 3、4、5 节)。
  4. 第 4 周——话轮与电话: 接入 Silero VAD 与话轮检测;配置并接通 SIP 中继(第 6、8 节)。
  5. 第 5 周——生产: 加入评测与可观测性;阅读 FCC/欧盟 AI 法材料(第 13、14、15 节)。
  6. 持续: 订阅两封通讯,并加入语音智能体相关社区,例如 LinkedIn 群组(第 16、17、18 节)。

贡献

欢迎 Pull Request。资源须在近 12 个月内仍活跃对开发者可访问,且为厂商中立或由商业方撰写时已明确标注。若要增删条目,也可开 issue 建议。