meetbot.dev

05 · transcription api

liefert H2 2026

Transkripte, optional.

Die Aufnahme ist das Produkt; das Transkript ist ein Add-on. Bringen Sie Ihren eigenen Schlüssel für AWS Transcribe, Deepgram, AssemblyAI, Gladia oder ElevenLabs und zahlen Sie $0. Oder zahlen Sie $0,10/Std für gehostetes Whisper-large-v3 mit Sprecher-Tagging eingebaut.

übersicht

Warum es das gibt.

Die Trennung. Wir denken nicht, dass Transkription in den Recording-Preis gebündelt sein sollte. Manche Teams zahlen bereits Deepgram oder Gladia für höhere Qualitätsausgaben; sie zu zwingen, uns einen versteckten $0,15/Std zu zahlen, um unser Transkript zu ignorieren, wäre beleidigend. Also liefern wir zwei Pfade und lassen Sie pro Bot wählen. Standard für neue Konten ist «keine Transkription», weil der günstigste API-Aufruf der ist, den Sie nicht machen.

BYOK bedeutet, dass Sie Ihren Provider-Schlüssel in Ihrem meetbot-Konto speichern; bei Recording-Abschluss (oder live, über WebSocket) routen wir das Audio durch die API dieses Providers und geben das Ergebnis im Webhook Ihres Bots zurück. Wir sehen den Transkript-Inhalt nie über das hinaus, was zum Routen nötig ist. Gehostetes Whisper läuft auf einer Hetzner-GPU-Box (RTX 4090), serviert etwa zwanzig gleichzeitige Realtime-Streams und unterstützt Mid-Meeting-Sprachwechsel. Sprecher-Tagging ist auf das bestehende Pro-Sprecher-Audio-Mapping des Bots geschraubt — wir wissen bereits, wer was sagte; das Transkript erbt das.

Async oder Realtime, Ihre Wahl. Async ist ein POST nach dem Ende des Meetings; Realtime öffnet einen WebSocket auf wss://api.meetbot.dev/v1/transcripts/:bot_id und streamt partielle + finalisierte Utterances, wie sie produziert werden. Beide Modi geben die gleiche Speaker-ID-getaggte JSONL-Form zurück, die wir heute für Captions verwenden, sodass Sie Captions gegen Transkripte in Ihrem Downstream-Consumer mit einer Ein-Zeilen-Änderung tauschen können.

geplante Oberfläche

Spec, offen gelegt.

item

transcript: { mode, provider }

Pro-Bot-Konfig beim Dispatch. mode ∈ {async, realtime}. provider ∈ {hosted-whisper, deepgram, assemblyai, gladia, aws-transcribe, elevenlabs}.

item

transcript.jsonl

Newline-delimited JSON. Eine Zeile pro finalisiertem Utterance, mit speakerId, name, text, tStart, tEnd. Gleiche Form wie Captions.

item

wss://api.meetbot.dev/v1/transcripts/:id

Realtime-WebSocket. Emittiert {type: partial|final, ...}-Frames, wie Utterances produziert werden. Pro Sprecher.

item

POST /v1/recordings/:id/transcript

Async-Transkript auf einer zuvor abgeschlossenen Aufnahme. Nützlich, wenn Sie sich entschieden haben, Transkription erst nach dem Anruf zu aktivieren.

item

Mehrsprachig + Sprachwechsel

Whisper-large-v3 erkennt Mid-Meeting-Sprachwechsel. Pro-Utterance-Lang-Tag im JSONL. Keine Notwendigkeit, im Voraus zu deklarieren.

item

BYOK-Key-Vault

Provider-Schlüssel verschlüsselt mit Pro-Tenant-KMS-abgeleiteten Schlüsseln gespeichert. Rotation durch /account/keys ohne Redeploys.