
一条精心整理的、面向开发者的学习路径:从第一次调用 STT,到把生产级电话语音智能体规模化上线。
语音智能体在不到三年里已从研究演示走进真实产品。现代技术栈正收敛为一种清晰范式:实时传输层(WebRTC 或电话网)、语音转文字 → 大语言模型 → 文字转语音的流式流水线,以及决定语音智能体何时开口的话轮模型。本清单的结构刻意贴近这一学习顺序——先打基础,再选框架,然后深入各组件与上线相关议题。
资源标注为 🟢 入门、🟡 进阶 或 🔴 高阶。优先收录免费官方文档与厂商中立指南;条目若存在商业背景会明确标注。
若你是全新入门,建议自上而下阅读。推荐路径:
从这里开始。下列资源帮你建立语音智能体流水线的心智模型,以及职业生涯里会持续打交道的延迟预算。
下列框架都能把 STT、LLM 与 TTS 串起来。若走开源生产路线,LiveKit Agents 与 Pipecat 通常是最稳妥的两款框架;若偏好托管控制台,Vapi、Retell、Bland 在「从 0 到第一次通话」上非常省时。
gpt-realtime 通过 WebRTC、WebSocket 或 SIP 接入的官方说明。🟡 进阶先选定一种流式 STT 并学深,再四处比价。Deepgram、AssemblyAI 与 Whisper 衍生方案已覆盖多数场景。
拖垮语音智能体的往往是延迟,而非单纯音质——应优先选择真正的流式输出、首字节在 200 ms 以内的供应商。
用户感知的「是否聪明」很大程度上取决于 LLM 能多快开始输出第一个 token。首 token 时延(TTFT)低于约 300 ms 会显著改变对话体感。
仅靠传统 VAD 已不够——现代方案往往把声学 VAD与预测话末的小型语义模型(结合用词与韵律)结合起来。
对不走电话网的语音智能体,WebRTC 是默认传输。要做生产,ICE、STUN、TURN 与 SFU 架构不可不晓。
RTCPeerConnection、getUserMedia 与信令的权威参考。🟢 入门电话网与互联网链路上的语音环境、协议与约束各不相同。理清 SIP 中继如何接入你所用的语音栈(例如基于 LiveKit 或 Pipecat 的部署),才能稳定连接 PSTN。
选定一篇教程并做完再开下一篇。语音智能体对「半成品流水线」极不宽容。
与其从零写样板,不如直接 clone。
你很少从零训练,但模型在哪些数据上训练决定了口音、语言与典型失效模式。
load_dataset() 做实验。🟢 入门这些是你实际会用到的模型背后的里程碑论文。建议先看 Whisper 与 Common Voice 两篇——文笔在机器学习论文里算格外友好。
不能度量就无法交付。语音智能体评测本质上带有随机性——同一转写在不同次运行中可能过也可能不过,因此仿真与统计比固定用例更重要。
语音智能体的生产级基础设施仍是本领域最难且未完全标准化的问题。在给人报「每分钟多少钱」之前,建议先读这些。
若在 2026 年对外发布语音智能体,披露与同意已不再是可选项。FCC 与欧盟《人工智能法》均有实质约束力。
订阅两三份即可跟上节奏——领域变化很快。
欢迎 Pull Request。资源须在近 12 个月内仍活跃、对开发者可访问,且为厂商中立或由商业方撰写时已明确标注。若要增删条目,也可开 issue 建议。