Provedores de Reconhecimento de Fala no Hedy
O que são Provedores de Reconhecimento de Fala?
O Hedy suporta múltiplas opções de reconhecimento de fala, oferecendo flexibilidade para escolher entre privacidade completa com processamento local ou alternativas baseadas na nuvem. Você pode alternar entre provedores a qualquer momento conforme suas necessidades atuais - use o local para sessões offline e serviços na nuvem quando preferir seus recursos específicos.
Primeiros Passos
-
Abra o aplicativo Hedy
-
Navegue até Settings (toque no ícone do seu perfil)
-
Role até “Speech Recognition Options”
-
Selecione seu provedor preferido no menu suspenso
-
Configure as configurações específicas do provedor, se necessário
-
Sua seleção entra em vigor na próxima sessão de gravação
Provedores Disponíveis
O Hedy oferece cinco opções de reconhecimento de fala, cada uma com características únicas:
-
Local Speech Recognition (Whisper): Opção padrão - 100% privado, funciona offline, sem custos de uso. Seu áudio nunca sai do dispositivo. Disponível em todas as plataformas em que o Hedy funciona.
-
Local Speech Recognition (Parakeet) [Beta]: Um motor mais recente que roda totalmente no dispositivo, usando a Neural Engine. Otimizado para inglês e os principais idiomas europeus, com transcrições mais rápidas e menor latência. Disponível em Macs com Apple Silicon e em iPhone 12 (ou mais recente) e iPad Air 4 (ou mais recente) com iOS 17 ou superior. Requer um download único do modelo de aproximadamente 0,5 GB.
-
Local Speech Recognition (Nemotron) [Beta]: Um motor de streaming no dispositivo mais recente que também roda inteiramente na Neural Engine do seu dispositivo, com transcrições ao vivo e rótulos de falantes no dispositivo. Você escolhe entre um modo apenas em inglês (a opção mais rápida) e um modo multilíngue que cobre um amplo conjunto de idiomas principais. Disponível nos mesmos dispositivos Apple do Parakeet: Macs com Apple Silicon e iPhone 12 (ou mais recente) e iPad Air 4 (ou mais recente). Requer um download único do modelo (cerca de 0,6 GB para apenas inglês, 0,7 GB para multilíngue).
-
Deepgram: Serviço baseado na nuvem com streaming em tempo real e recursos de formatação inteligente. Usa o Nova-3, que suporta dezenas de idiomas. O Hedy expõe todos os idiomas que o Nova-3 oferece, permitindo que você transcreva reuniões em qualquer idioma suportado sem precisar trocar de provedor. Requer sua própria chave de API.
-
OpenAI: Transcrição na nuvem com Voice Activity Detection e detecção automática de idioma. O Hedy continua automaticamente sessões longas além do limite de 60 minutos por conexão do OpenAI, rotacionando conexões em segundo plano para que reuniões de mais de uma hora continuem sem interrupção. Requer sua própria chave de API.
Configurando o Local Speech Recognition (Whisper)
Ao usar o Whisper, você pode otimizar as configurações para seu dispositivo e necessidades:
Para Usuários macOS:
-
Small Model: Processamento mais rápido, recomendado para Macs com Intel
-
Regular Model: Equilíbrio entre velocidade e precisão para a maioria dos usuários
-
Large Model: Capacidades aprimoradas para idiomas que não são inglês (requer download de 1,5GB)
Para Usuários iOS/Android:
-
Standard Model: Opção padrão adequada para a maioria dos dispositivos
-
Large Model: Opção de modelo alternativo (recomendado iPhone 12+ ou Android 2024+)
Voice Activity Detection (VAD):
O VAD filtra automaticamente silêncio e ruído de fundo para melhorar a qualidade da transcrição. Este recurso é ativado por padrão para o Whisper.
-
Ativar/Desativar: Alterne o VAD ligado ou desligado com base no seu ambiente de gravação
-
Sensibilidade: Ajuste de “High Sensitivity” (captura mais fala, incluindo sons mais baixos) até “Maximum Filtering” (captura apenas fala clara, filtra mais ruído de fundo)
Configurações de Velocidade da Transcrição:
-
Slower: Aguarda frases completas antes de exibir
-
Normal: Equilíbrio entre velocidade e tempo de exibição
-
Faster: Exibição quase em tempo real com atualizações mais frequentes
Configurando o Local Speech Recognition (Parakeet)
O Parakeet está atualmente em Beta. A transcrição é feita inteiramente no dispositivo usando a Neural Engine do seu iPhone, iPad ou Mac, oferecendo, para os idiomas suportados, uma transcrição mais rápida e com menor latência do que o Whisper.
Requisitos do dispositivo:
-
Mac com Apple Silicon (M1 ou mais recente), ou
-
iPhone 12 ou mais recente, ou iPad Air 4 ou mais recente, com iOS 17 ou superior
Configuração inicial:
-
Selecione Local Speech Recognition (Parakeet) no menu suspenso de provedores
-
Toque em Download Parakeet Model (~0.5 GB) — Wi-Fi recomendado
-
Assim que o download terminar, o Parakeet passa a ser usado automaticamente na sua próxima sessão
Suporte a idiomas:
O Parakeet funciona melhor para inglês e os principais idiomas europeus. Em alguns casos, pode identificar incorretamente idiomas semelhantes. Se as transcrições aparecerem no idioma errado, volte para o Whisper nessa sessão.
Fallback automático:
Se o Parakeet não conseguir iniciar uma sessão no seu dispositivo (por exemplo, após uma atualização do sistema operacional alterar o formato do modelo no dispositivo), o Hedy alterna automaticamente para o Whisper nessa sessão e oferece um aviso de um toque para baixar o novo modelo do Parakeet em Configurações. Você não perde a sessão.
Configurando o Local Speech Recognition (Nemotron)
O Nemotron está atualmente em Beta. Assim como o Parakeet, ele transcreve inteiramente no dispositivo usando a Neural Engine do seu iPhone, iPad ou Mac, e mostra transcrições ao vivo enquanto você fala. Está disponível no iOS e no macOS.
Requisitos do dispositivo:
-
Mac com Apple Silicon (M1 ou mais recente), ou
-
iPhone 12 ou mais recente, ou iPad Air 4 ou mais recente
Apenas inglês ou multilíngue:
No menu suspenso de provedores, o Nemotron aparece como duas opções, para que você escolha a que combina com suas reuniões:
-
Local Speech Recognition (Nemotron English Only): transcrição em streaming em inglês, a opção mais rápida.
-
Local Speech Recognition (Nemotron Multilingual): streaming no dispositivo em um amplo conjunto de idiomas principais, para quando você precisa de mais do que inglês.
Ambos rodam totalmente no dispositivo e ambos identificam o idioma a partir do áudio, não da sua configuração de idioma da reunião.
Configuração inicial:
-
Selecione Local Speech Recognition (Nemotron English Only) ou (Nemotron Multilingual) no menu suspenso de provedores
-
Toque em Download Nemotron model (cerca de 0,6 GB para apenas inglês, 0,7 GB para multilíngue) — Wi-Fi recomendado
-
Assim que o download terminar, o Nemotron passa a ser usado automaticamente na sua próxima sessão
Rótulos de falantes e cache temporário de áudio:
O Nemotron rotula quem está falando, tanto ao vivo quanto após a sessão. Para tornar esses rótulos de falantes mais precisos, o Hedy mantém o áudio de cada sessão em um cache temporário no dispositivo enquanto processa e depois o exclui. Esse áudio permanece no seu dispositivo. A configuração, Cache temporário de áudio (Nemotron), fica ativada por padrão; você pode desativá-la nas configurações do Hedy, embora deixá-la ativada dê ao Nemotron a melhor atribuição de falantes.
Configurando Provedores na Nuvem
Configuração do Deepgram:
-
Crie uma conta em console.deepgram.com
-
Gere uma chave de API no seu painel
-
Em Hedy Settings, selecione Deepgram no menu suspenso
-
Cole sua chave de API e toque em “Test” para verificar
-
Escolha suas preferências de modelo e idioma
-
Defina a duração máxima da sessão para controlar custos
Configuração do OpenAI:
-
Obtenha sua chave de API em platform.openai.com/api-keys
-
Em Hedy Settings, selecione OpenAI no menu suspenso
-
Insira sua chave de API e teste a conexão
-
Escolha seu modelo preferido
-
Opcionalmente, ative o Voice Activity Detection com sensibilidade ajustável
-
Defina a duração máxima da sessão para controle de custos
Escolhendo o Provedor Certo
Selecione com base em suas prioridades e caso de uso:
-
Privacidade em Primeiro Lugar: Use qualquer motor local (Whisper, Parakeet ou Nemotron) - o áudio nunca sai do seu dispositivo
-
Uso Offline: Todos os motores locais funcionam sem internet
-
Recursos na Nuvem: Deepgram e OpenAI oferecem processamento baseado na nuvem
-
Detecção de Voz: Whisper e OpenAI incluem recursos de Voice Activity Detection
-
Formatação Inteligente: O Deepgram oferece opções de formatação automática
-
Sem Custos de Uso: Os motores locais (Whisper, Parakeet, Nemotron) não têm cobranças por minuto
-
Transcrição no dispositivo mais rápida: Em Macs com Apple Silicon, iPhones e iPads compatíveis, os motores de streaming (Parakeet e Nemotron, ambos em Beta) normalmente entregam uma transcrição com menor latência do que o Whisper
-
Streaming multilíngue no dispositivo: Em dispositivos Apple compatíveis, o Nemotron Multilingual (Beta) oferece transcrição ao vivo no dispositivo em um amplo conjunto de idiomas
-
Cobertura máxima de idiomas no dispositivo: Para idiomas não europeus no dispositivo, prefira o Whisper Large ou o Nemotron Multilingual
-
Análise Totalmente Privada: No macOS (Apple Silicon) ou no Windows, você pode combinar o reconhecimento de fala local com o Processamento de IA Local para manter a transcrição e a análise de IA inteiramente no dispositivo.
Considerações de Custo
Entendendo as implicações de custo de cada provedor:
-
Local Speech Recognition (Whisper): Gratuito - sem cobranças de uso
-
Local Speech Recognition (Parakeet): Gratuito - sem cobranças de uso (download único do modelo de aproximadamente 0,5 GB)
-
Local Speech Recognition (Nemotron): Gratuito - sem cobranças de uso (download único do modelo, cerca de 0,6-0,7 GB)
-
Deepgram: Preço por minuto (verifique as taxas atuais no painel deles)
-
OpenAI: Preço baseado em uso (verifique as taxas atuais na plataforma deles)
A configuração de duração máxima da sessão ajuda a prevenir gravações acidentais durante a noite e a gerenciar custos de API.
Boas Práticas
-
Comece com o Local Speech Recognition (Whisper) para se familiarizar com o recurso e, em seguida, experimente o Parakeet ou o Nemotron se o seu dispositivo for compatível
-
Teste provedores na nuvem com gravações curtas antes de sessões importantes
-
Monitore seu uso de API nos painéis dos provedores para acompanhar custos
-
Use diferentes provedores para diferentes cenários com base em suas necessidades
-
Mude para local quando estiver viajando ou em áreas com internet limitada
-
Defina durações máximas de sessão apropriadas (60-120 minutos para reuniões típicas)
Solução de Problemas
Chave de API Não Funciona
-
Certifique-se de que copiou a chave completa sem espaços
-
Verifique se sua conta tem créditos disponíveis
-
Confirme que a chave de API tem as permissões necessárias
-
Tente regenerar a chave no painel do provedor
Teste de Conexão Falhou
-
Verifique a estabilidade da sua conexão com a internet
-
Confirme que o firewall não está bloqueando conexões WebSocket
-
Certifique-se de que a chave de API está ativa com cota suficiente
-
Aguarde um momento e tente novamente (problemas temporários do serviço)
Problemas de Transcrição
-
Para Whisper: Tente um tamanho de modelo diferente
-
Para Whisper no Windows: Se a transcrição fica muito atrás da conversa, verifique configurações de GPU para transcrição lenta
-
Para termos especializados, nomes e siglas: Adicione-os pelo recurso de vocabulário personalizado
-
Para Parakeet: Se as transcrições aparecerem no idioma errado em uma sessão multilíngue, volte para o Whisper nessa sessão
-
Para Nemotron: Use o modo English Only para reuniões em inglês; para outros idiomas, use o modo Multilingual ou volte para o Whisper com o idioma definido explicitamente
-
Para Nuvem: Verifique a estabilidade da conexão com a internet
-
Certifique-se de que o microfone está configurado corretamente
-
Minimize o ruído de fundo durante a gravação
Configurações Não Salvam
-
Aguarde o indicador “Saved” aparecer
-
Não troque de tela enquanto estiver salvando
-
Reinicie o aplicativo se os problemas persistirem
-
Certifique-se de ter uma conexão estável com a internet
Suas chaves de API são armazenadas com segurança no keychain criptografado do seu dispositivo e nunca são transmitidas para os servidores do Hedy. Para máxima privacidade em conversas sensíveis, sempre use um motor local (Whisper, Parakeet ou Nemotron).