Provedores de Reconhecimento de Fala no Hedy

O que são Provedores de Reconhecimento de Fala?

O Hedy suporta múltiplas opções de reconhecimento de fala, oferecendo flexibilidade para escolher entre privacidade completa com processamento local ou alternativas baseadas na nuvem. Você pode alternar entre provedores a qualquer momento conforme suas necessidades atuais - use o local para sessões offline e serviços na nuvem quando preferir seus recursos específicos.

Primeiros Passos

Abra o aplicativo Hedy
Navegue até Settings (toque no ícone do seu perfil)
Role até “Speech Recognition Options”
Selecione seu provedor preferido no menu suspenso
Configure as configurações específicas do provedor, se necessário
Sua seleção entra em vigor na próxima sessão de gravação

Provedores Disponíveis

O Hedy oferece cinco opções de reconhecimento de fala, cada uma com características únicas:

Local Speech Recognition (Whisper): Opção padrão - 100% privado, funciona offline, sem custos de uso. Seu áudio nunca sai do dispositivo. Disponível em todas as plataformas em que o Hedy funciona.
Local Speech Recognition (Parakeet) [Beta]: Um motor mais recente que roda totalmente no dispositivo, usando a Neural Engine. Otimizado para inglês e os principais idiomas europeus, com transcrições mais rápidas e menor latência. Disponível em Macs com Apple Silicon e em iPhone 12 (ou mais recente) e iPad Air 4 (ou mais recente) com iOS 17 ou superior. Requer um download único do modelo de aproximadamente 0,5 GB.
Local Speech Recognition (Nemotron) [Beta]: Um motor de streaming no dispositivo mais recente que também roda inteiramente na Neural Engine do seu dispositivo, com transcrições ao vivo e rótulos de falantes no dispositivo. Você escolhe entre um modo apenas em inglês (a opção mais rápida) e um modo multilíngue que cobre um amplo conjunto de idiomas principais. Disponível nos mesmos dispositivos Apple do Parakeet: Macs com Apple Silicon e iPhone 12 (ou mais recente) e iPad Air 4 (ou mais recente). Requer um download único do modelo (cerca de 0,6 GB para apenas inglês, 0,7 GB para multilíngue).
Deepgram: Serviço baseado na nuvem com streaming em tempo real e recursos de formatação inteligente. Usa o Nova-3, que suporta dezenas de idiomas. O Hedy expõe todos os idiomas que o Nova-3 oferece, permitindo que você transcreva reuniões em qualquer idioma suportado sem precisar trocar de provedor. Requer sua própria chave de API.
OpenAI: Transcrição na nuvem com Voice Activity Detection e detecção automática de idioma. O Hedy continua automaticamente sessões longas além do limite de 60 minutos por conexão do OpenAI, rotacionando conexões em segundo plano para que reuniões de mais de uma hora continuem sem interrupção. Requer sua própria chave de API.

Configurando o Local Speech Recognition (Whisper)

Ao usar o Whisper, você pode otimizar as configurações para seu dispositivo e necessidades:

Para Usuários macOS:

Small Model: Processamento mais rápido, recomendado para Macs com Intel
Regular Model: Equilíbrio entre velocidade e precisão para a maioria dos usuários
Large Model: Capacidades aprimoradas para idiomas que não são inglês (requer download de 1,5GB)

Para Usuários iOS/Android:

Standard Model: Opção padrão adequada para a maioria dos dispositivos
Large Model: Opção de modelo alternativo (recomendado iPhone 12+ ou Android 2024+)

Voice Activity Detection (VAD):

O VAD filtra automaticamente silêncio e ruído de fundo para melhorar a qualidade da transcrição. Este recurso é ativado por padrão para o Whisper.

Ativar/Desativar: Alterne o VAD ligado ou desligado com base no seu ambiente de gravação
Sensibilidade: Ajuste de “High Sensitivity” (captura mais fala, incluindo sons mais baixos) até “Maximum Filtering” (captura apenas fala clara, filtra mais ruído de fundo)

Configurações de Velocidade da Transcrição:

Slower: Aguarda frases completas antes de exibir
Normal: Equilíbrio entre velocidade e tempo de exibição
Faster: Exibição quase em tempo real com atualizações mais frequentes

Configurando o Local Speech Recognition (Parakeet)

O Parakeet está atualmente em Beta. A transcrição é feita inteiramente no dispositivo usando a Neural Engine do seu iPhone, iPad ou Mac, oferecendo, para os idiomas suportados, uma transcrição mais rápida e com menor latência do que o Whisper.

Requisitos do dispositivo:

Mac com Apple Silicon (M1 ou mais recente), ou
iPhone 12 ou mais recente, ou iPad Air 4 ou mais recente, com iOS 17 ou superior

Configuração inicial:

Selecione Local Speech Recognition (Parakeet) no menu suspenso de provedores
Toque em Download Parakeet Model (~0.5 GB) — Wi-Fi recomendado
Assim que o download terminar, o Parakeet passa a ser usado automaticamente na sua próxima sessão

Suporte a idiomas:

O Parakeet funciona melhor para inglês e os principais idiomas europeus. Em alguns casos, pode identificar incorretamente idiomas semelhantes. Se as transcrições aparecerem no idioma errado, volte para o Whisper nessa sessão.

Fallback automático:

Se o Parakeet não conseguir iniciar uma sessão no seu dispositivo (por exemplo, após uma atualização do sistema operacional alterar o formato do modelo no dispositivo), o Hedy alterna automaticamente para o Whisper nessa sessão e oferece um aviso de um toque para baixar o novo modelo do Parakeet em Configurações. Você não perde a sessão.

Configurando o Local Speech Recognition (Nemotron)

O Nemotron está atualmente em Beta. Assim como o Parakeet, ele transcreve inteiramente no dispositivo usando a Neural Engine do seu iPhone, iPad ou Mac, e mostra transcrições ao vivo enquanto você fala. Está disponível no iOS e no macOS.

Requisitos do dispositivo:

Mac com Apple Silicon (M1 ou mais recente), ou
iPhone 12 ou mais recente, ou iPad Air 4 ou mais recente

Apenas inglês ou multilíngue:

No menu suspenso de provedores, o Nemotron aparece como duas opções, para que você escolha a que combina com suas reuniões:

Local Speech Recognition (Nemotron English Only): transcrição em streaming em inglês, a opção mais rápida.
Local Speech Recognition (Nemotron Multilingual): streaming no dispositivo em um amplo conjunto de idiomas principais, para quando você precisa de mais do que inglês.

Ambos rodam totalmente no dispositivo e ambos identificam o idioma a partir do áudio, não da sua configuração de idioma da reunião.

Configuração inicial:

Selecione Local Speech Recognition (Nemotron English Only) ou (Nemotron Multilingual) no menu suspenso de provedores
Toque em Download Nemotron model (cerca de 0,6 GB para apenas inglês, 0,7 GB para multilíngue) — Wi-Fi recomendado
Assim que o download terminar, o Nemotron passa a ser usado automaticamente na sua próxima sessão

Rótulos de falantes e cache temporário de áudio:

O Nemotron rotula quem está falando, tanto ao vivo quanto após a sessão. Para tornar esses rótulos de falantes mais precisos, o Hedy mantém o áudio de cada sessão em um cache temporário no dispositivo enquanto processa e depois o exclui. Esse áudio permanece no seu dispositivo. A configuração, Cache temporário de áudio (Nemotron), fica ativada por padrão; você pode desativá-la nas configurações do Hedy, embora deixá-la ativada dê ao Nemotron a melhor atribuição de falantes.

Configurando Provedores na Nuvem

Configuração do Deepgram:

Crie uma conta em console.deepgram.com
Gere uma chave de API no seu painel
Em Hedy Settings, selecione Deepgram no menu suspenso
Cole sua chave de API e toque em “Test” para verificar
Escolha suas preferências de modelo e idioma
Defina a duração máxima da sessão para controlar custos

Configuração do OpenAI:

Obtenha sua chave de API em platform.openai.com/api-keys
Em Hedy Settings, selecione OpenAI no menu suspenso
Insira sua chave de API e teste a conexão
Escolha seu modelo preferido
Opcionalmente, ative o Voice Activity Detection com sensibilidade ajustável
Defina a duração máxima da sessão para controle de custos

Escolhendo o Provedor Certo

Selecione com base em suas prioridades e caso de uso:

Privacidade em Primeiro Lugar: Use qualquer motor local (Whisper, Parakeet ou Nemotron) - o áudio nunca sai do seu dispositivo
Uso Offline: Todos os motores locais funcionam sem internet
Recursos na Nuvem: Deepgram e OpenAI oferecem processamento baseado na nuvem
Detecção de Voz: Whisper e OpenAI incluem recursos de Voice Activity Detection
Formatação Inteligente: O Deepgram oferece opções de formatação automática
Sem Custos de Uso: Os motores locais (Whisper, Parakeet, Nemotron) não têm cobranças por minuto
Transcrição no dispositivo mais rápida: Em Macs com Apple Silicon, iPhones e iPads compatíveis, os motores de streaming (Parakeet e Nemotron, ambos em Beta) normalmente entregam uma transcrição com menor latência do que o Whisper
Streaming multilíngue no dispositivo: Em dispositivos Apple compatíveis, o Nemotron Multilingual (Beta) oferece transcrição ao vivo no dispositivo em um amplo conjunto de idiomas
Cobertura máxima de idiomas no dispositivo: Para idiomas não europeus no dispositivo, prefira o Whisper Large ou o Nemotron Multilingual
Análise Totalmente Privada: No macOS (Apple Silicon) ou no Windows, você pode combinar o reconhecimento de fala local com o Processamento de IA Local para manter a transcrição e a análise de IA inteiramente no dispositivo.

Considerações de Custo

Entendendo as implicações de custo de cada provedor:

Local Speech Recognition (Whisper): Gratuito - sem cobranças de uso
Local Speech Recognition (Parakeet): Gratuito - sem cobranças de uso (download único do modelo de aproximadamente 0,5 GB)
Local Speech Recognition (Nemotron): Gratuito - sem cobranças de uso (download único do modelo, cerca de 0,6-0,7 GB)
Deepgram: Preço por minuto (verifique as taxas atuais no painel deles)
OpenAI: Preço baseado em uso (verifique as taxas atuais na plataforma deles)

A configuração de duração máxima da sessão ajuda a prevenir gravações acidentais durante a noite e a gerenciar custos de API.

Boas Práticas

Comece com o Local Speech Recognition (Whisper) para se familiarizar com o recurso e, em seguida, experimente o Parakeet ou o Nemotron se o seu dispositivo for compatível
Teste provedores na nuvem com gravações curtas antes de sessões importantes
Monitore seu uso de API nos painéis dos provedores para acompanhar custos
Use diferentes provedores para diferentes cenários com base em suas necessidades
Mude para local quando estiver viajando ou em áreas com internet limitada
Defina durações máximas de sessão apropriadas (60-120 minutos para reuniões típicas)

Solução de Problemas

Chave de API Não Funciona

Certifique-se de que copiou a chave completa sem espaços
Verifique se sua conta tem créditos disponíveis
Confirme que a chave de API tem as permissões necessárias
Tente regenerar a chave no painel do provedor

Teste de Conexão Falhou

Verifique a estabilidade da sua conexão com a internet
Confirme que o firewall não está bloqueando conexões WebSocket
Certifique-se de que a chave de API está ativa com cota suficiente
Aguarde um momento e tente novamente (problemas temporários do serviço)

Problemas de Transcrição

Para Whisper: Tente um tamanho de modelo diferente
Para Whisper no Windows: Se a transcrição fica muito atrás da conversa, verifique configurações de GPU para transcrição lenta
Para termos especializados, nomes e siglas: Adicione-os pelo recurso de vocabulário personalizado
Para Parakeet: Se as transcrições aparecerem no idioma errado em uma sessão multilíngue, volte para o Whisper nessa sessão
Para Nemotron: Use o modo English Only para reuniões em inglês; para outros idiomas, use o modo Multilingual ou volte para o Whisper com o idioma definido explicitamente
Para Nuvem: Verifique a estabilidade da conexão com a internet
Certifique-se de que o microfone está configurado corretamente
Minimize o ruído de fundo durante a gravação

Configurações Não Salvam

Aguarde o indicador “Saved” aparecer
Não troque de tela enquanto estiver salvando
Reinicie o aplicativo se os problemas persistirem
Certifique-se de ter uma conexão estável com a internet

Suas chaves de API são armazenadas com segurança no keychain criptografado do seu dispositivo e nunca são transmitidas para os servidores do Hedy. Para máxima privacidade em conversas sensíveis, sempre use um motor local (Whisper, Parakeet ou Nemotron).