Transcrições, opcionais.

Name: meetbot Transcription API
Brand: meetbot
Availability: PreOrder

A gravação é o produto; a transcrição é add-on. Traga sua chave para AWS Transcribe, Deepgram, AssemblyAI, Gladia, ou ElevenLabs e pague $0. Ou pague $0,10/h por Whisper-large-v3 hospedado com etiquetagem de falante incluída.

Entre na beta H2 →veja a API do bot

visão geral

Por que isso existe.

A divisão. Não achamos que transcrição deva ir empacotada no preço da gravação. Alguns times já pagam Deepgram ou Gladia por saídas de qualidade superior; forçá-los a pagar um $0,15/h escondido pra ignorar nossa transcrição seria insultante. Então enviamos dois caminhos e deixamos você escolher por bot. Padrão pra contas novas é «sem transcrição», porque a chamada API mais barata é a que você não faz.

BYOK significa que você guarda sua chave de provedor na sua conta meetbot; ao completar gravação (ou ao vivo, sobre WebSocket) roteamos áudio pela API daquele provedor e devolvemos resultado no webhook do seu bot. Nunca vemos conteúdo da transcrição além do necessário pra rotear. Whisper hospedado roda em caixa GPU Hetzner (RTX 4090), serve cerca de vinte streams realtime concorrentes, e suporta troca de idioma a meio da reunião. Etiquetagem de falante é parafusada ao mapeamento existente de áudio por falante do bot — já sabemos quem disse o quê; transcrição herda.

Async ou realtime, sua escolha. Async é um POST após reunião terminar; realtime abre WebSocket em wss://api.meetbot.dev/v1/transcripts/:bot_id e stream-eia enunciados parciais + finalizados conforme produzidos. Ambos modos devolvem o mesmo formato JSONL etiquetado por speaker-id que usamos hoje pra captions, então você pode trocar captions por transcrições no seu consumidor downstream com mudança de uma linha.

superfície planejada

Spec, à mostra.

item

transcript: { mode, provider }

Config por bot no despacho. mode ∈ {async, realtime}. provider ∈ {hosted-whisper, deepgram, assemblyai, gladia, aws-transcribe, elevenlabs}.

item

transcript.jsonl

JSON delimitado por nova linha. Uma linha por enunciado finalizado, com speakerId, name, text, tStart, tEnd. Mesmo formato que captions.

item

wss://api.meetbot.dev/v1/transcripts/:id

WebSocket realtime. Emite frames {type: partial|final, ...} conforme enunciados são produzidos. Por falante.

item

POST /v1/recordings/:id/transcript

Transcrição async sobre gravação previamente completada. Útil se decidiu habilitar transcrição só depois da chamada.

item

Multilíngue + troca de idioma

Whisper-large-v3 detecta trocas de idioma a meio da reunião. Tag de idioma por enunciado no JSONL. Sem necessidade de declarar adiantado.

item

Cofre de chaves BYOK

Chaves de provedor armazenadas criptografadas com chaves derivadas de KMS por tenant. Rotação por /account/keys sem redeploys.

veja também