transcript: { mode, provider }
Dispatch 时按 bot 配置。mode ∈ {async, realtime}。provider ∈ {hosted-whisper, deepgram, assemblyai, gladia, aws-transcribe, elevenlabs}。
05 · transcription api
H2 2026 推出The recording is the product; the transcript is an add-on. Bring your own key for AWS Transcribe, Deepgram, AssemblyAI, Gladia, or ElevenLabs and pay $0. Or pay $0.10/hr for hosted Whisper-large-v3 with speaker tagging built in.
概述
分离。我们认为转录不应该被打包进录制价格。一些团队已经为更高质量输出付钱给 Deepgram 或 Gladia;强迫他们付我们一个隐藏的 $0.15/小时去忽略我们的转录是侮辱性的。所以我们出货两条路径,让您按 bot 选择。新账号默认是“不转录”,因为最便宜的 API 调用是您不发起的那个。
BYOK 意味着您把提供商密钥存在 meetbot 账户中;在录制完成时 (或实时,通过 WebSocket) 我们通过该提供商的 API 路由音频,在您的 bot webhook 上返回结果。我们绝不看到超过路由所需的转录内容。托管 Whisper 跑在 Hetzner GPU 机器 (RTX 4090) 上,服务约二十个并发实时流,支持会议中途切换语言。说话者标记是螺接在 bot 现有的按说话者音频 mapping 之上的——我们已经知道谁说了什么;转录继承这点。
异步或实时,您来选。异步是会议结束后的一个 POST;实时在 wss://api.meetbot.dev/v1/transcripts/:bot_id 上打开一个 WebSocket,产生时流式 partial + 最终化发言。两种模式返回我们今天用于字幕的同样 speaker-id 标记 JSONL 形状,所以您能在下游消费者中用一行更改把字幕换成转录。
计划中的接口
Dispatch 时按 bot 配置。mode ∈ {async, realtime}。provider ∈ {hosted-whisper, deepgram, assemblyai, gladia, aws-transcribe, elevenlabs}。
换行分隔 JSON。每行一个最终化发言,带 speakerId、name、text、tStart、tEnd。与字幕同样形状。
实时 WebSocket。发言产生时发出 {type: partial|final, ...} 帧。按说话者。
对先前完成的录制的异步转录。如果您在通话后才决定启用转录则有用。
Whisper-large-v3 检测会议中途的语言切换。JSONL 中按发言的 lang 标签。无需提前声明。
提供商密钥用每租户 KMS 派生密钥加密存储。通过 /account/keys 轮换无需 redeploy。