transcript: { mode, provider }
Dispatch에서 bot당 구성. mode ∈ {async, realtime}. provider ∈ {hosted-whisper, deepgram, assemblyai, gladia, aws-transcribe, elevenlabs}.
05 · transcription api
H2 2026 출시The recording is the product; the transcript is an add-on. Bring your own key for AWS Transcribe, Deepgram, AssemblyAI, Gladia, or ElevenLabs and pay $0. Or pay $0.10/hr for hosted Whisper-large-v3 with speaker tagging built in.
개요
분리. 전사가 녹화 가격에 묶여서는 안 된다고 생각합니다. 일부 팀은 이미 더 높은 품질 출력을 위해 Deepgram 또는 Gladia에 비용을 지불하고 있습니다. 우리의 트랜스크립트를 무시하기 위해 숨겨진 시간당 $0.15를 강제로 지불하게 하는 것은 모욕적일 것입니다. 그래서 두 경로를 출시하고 bot 단위로 선택할 수 있게 합니다. 새 계정의 기본값은 "전사 없음"입니다. 가장 저렴한 API 호출은 하지 않는 것이기 때문입니다.
BYOK는 제공자 키를 meetbot 계정에 저장한다는 의미입니다. 녹화 완료 시 (또는 라이브, WebSocket을 통해) 그 제공자의 API를 통해 오디오를 라우팅하고 결과를 bot의 webhook에 반환합니다. 라우팅에 필요한 것 외에 트랜스크립트 콘텐츠를 보지 않습니다. 호스티드 Whisper는 Hetzner GPU 박스 (RTX 4090)에서 실행되며, 약 20개의 동시 실시간 스트림을 제공하고, 회의 중간 언어 전환을 지원합니다. 화자 태깅은 bot의 기존 화자별 오디오 매핑 위에 볼트로 부착됩니다 — 이미 누가 무엇을 말했는지 알고 있고, 트랜스크립트는 그것을 상속합니다.
비동기 또는 실시간, 당신의 선택. 비동기는 회의가 끝난 후 한 번의 POST. 실시간은 wss://api.meetbot.dev/v1/transcripts/:bot_id에서 WebSocket을 열고 생성될 때마다 partial + 확정된 발언을 스트리밍합니다. 두 모드 모두 오늘 자막에 사용하는 것과 같은 speaker-id 태그된 JSONL 형태를 반환하므로, 다운스트림 컨슈머에서 한 줄 변경으로 자막을 트랜스크립트로 교체할 수 있습니다.
계획된 인터페이스
Dispatch에서 bot당 구성. mode ∈ {async, realtime}. provider ∈ {hosted-whisper, deepgram, assemblyai, gladia, aws-transcribe, elevenlabs}.
줄바꿈 구분 JSON. 확정된 발언당 한 줄, speakerId, name, text, tStart, tEnd 포함. 자막과 같은 형태.
실시간 WebSocket. 발언이 생성될 때마다 {type: partial|final, ...} 프레임 발행. 화자별.
이전에 완료된 녹화에 대한 비동기 트랜스크립트. 통화 후에 전사를 활성화하기로 결정한 경우 유용.
Whisper-large-v3가 회의 중간 언어 전환을 감지. JSONL의 발언별 lang 태그. 미리 선언할 필요 없음.
제공자 키가 테넌트별 KMS 파생 키로 암호화 저장됨. redeploy 없이 /account/keys를 통해 로테이션.