Fournisseurs de reconnaissance vocale dans Hedy

Que sont les fournisseurs de reconnaissance vocale ?

Hedy prend en charge plusieurs options de reconnaissance vocale, vous offrant la flexibilité de choisir entre une confidentialité totale avec le traitement local ou des alternatives basées sur le cloud. Vous pouvez changer de fournisseur à tout moment en fonction de vos besoins actuels — utilisez le traitement local pour les sessions hors ligne et les services cloud lorsque vous préférez leurs fonctionnalités spécifiques.

Premiers pas

Ouvrez l’application Hedy
Accédez à Settings (appuyez sur votre icône de profil)
Faites défiler jusqu’à « Speech Recognition Options »
Sélectionnez votre fournisseur préféré dans le menu déroulant
Configurez les paramètres spécifiques au fournisseur si nécessaire
Votre sélection prendra effet lors de la prochaine session d’enregistrement

Fournisseurs disponibles

Hedy propose cinq options de reconnaissance vocale, chacune avec des caractéristiques uniques :

Local Speech Recognition (Whisper) : Option par défaut — 100 % privée, fonctionne hors ligne, sans coût d’utilisation. Votre audio ne quitte jamais votre appareil. Disponible sur toutes les plateformes prises en charge par Hedy.
Local Speech Recognition (Parakeet) [Beta] : Un nouveau moteur entièrement sur l’appareil, qui s’appuie sur le Neural Engine. Optimisé pour l’anglais et les principales langues européennes, avec des transcriptions plus rapides et une latence réduite. Disponible sur les Mac Apple Silicon ainsi que sur iPhone 12 (ou plus récent) et iPad Air 4 (ou plus récent) sous iOS 17 ou ultérieur. Nécessite un téléchargement unique du modèle d’environ 0,5 Go.
Local Speech Recognition (Nemotron) [Beta] : Un nouveau moteur de streaming sur l’appareil qui s’exécute lui aussi entièrement sur le Neural Engine de votre appareil, avec des transcriptions en direct et des étiquettes de locuteur sur l’appareil. Vous choisissez entre un mode anglais uniquement (l’option la plus rapide) et un mode multilingue qui couvre un large ensemble de langues majeures. Disponible sur les mêmes appareils Apple que Parakeet : Mac Apple Silicon, iPhone 12 (ou plus récent) et iPad Air 4 (ou plus récent). Nécessite un téléchargement unique du modèle (environ 0,6 Go pour l’anglais uniquement, 0,7 Go pour le multilingue).
Deepgram : Service cloud avec streaming en temps réel et fonctionnalités de mise en forme intelligente. Utilise Nova-3, qui prend en charge des dizaines de langues. Hedy expose toutes les langues proposées par Nova-3, vous permettant de transcrire des réunions dans n’importe quelle langue prise en charge sans changer de fournisseur. Nécessite votre propre clé API.
OpenAI : Transcription cloud avec Voice Activity Detection et détection automatique de la langue. Hedy prolonge automatiquement les longues sessions au-delà de la limite de 60 minutes par connexion d’OpenAI en faisant tourner les connexions en arrière-plan, afin que les réunions de plus d’une heure se poursuivent sans interruption. Nécessite votre propre clé API.

Configurer Local Speech Recognition (Whisper)

Lorsque vous utilisez Whisper, vous pouvez optimiser les réglages pour votre appareil et vos besoins :

Pour les utilisateurs macOS :

Small Model : Traitement le plus rapide, recommandé pour les Mac Intel
Regular Model : Équilibre entre vitesse et précision pour la plupart des utilisateurs
Large Model : Capacités améliorées pour les langues autres que l’anglais (nécessite un téléchargement de 1,5 Go)

Pour les utilisateurs iOS/Android :

Standard Model : Option par défaut adaptée à la plupart des appareils
Large Model : Option de modèle alternative (iPhone 12+ ou Android 2024+ recommandé)

Voice Activity Detection (VAD) :

La VAD filtre automatiquement les silences et le bruit de fond pour améliorer la qualité de la transcription. Cette fonctionnalité est activée par défaut pour Whisper.

Activer/Désactiver : Activez ou désactivez la VAD en fonction de votre environnement d’enregistrement
Sensibilité : Ajustez de « High Sensitivity » (capture plus de parole, y compris les sons plus faibles) à « Maximum Filtering » (ne capture que la parole claire, filtre davantage le bruit de fond)

Paramètres de vitesse de transcription :

Slower : Attend les phrases complètes avant de les afficher
Normal : Équilibre entre vitesse et rythme d’affichage
Faster : Affichage quasi en temps réel avec des mises à jour plus fréquentes

Configurer Local Speech Recognition (Parakeet)

Parakeet est actuellement en Beta. La transcription se fait entièrement sur l’appareil, via le Neural Engine de votre iPhone, iPad ou Mac, et vise à offrir une transcription plus rapide et avec une latence plus faible que Whisper pour les langues prises en charge.

Exigences de l’appareil :

Mac Apple Silicon (M1 ou plus récent), ou
iPhone 12 ou plus récent, ou iPad Air 4 ou plus récent, sous iOS 17 ou ultérieur

Configuration initiale :

Sélectionnez Local Speech Recognition (Parakeet) dans le menu déroulant des fournisseurs
Appuyez sur Download Parakeet Model (~0.5 GB) — Wi-Fi recommandé
Une fois le téléchargement terminé, Parakeet est utilisé automatiquement lors de votre prochaine session

Langues prises en charge :

Parakeet fonctionne le mieux pour l’anglais et les principales langues européennes. Il peut occasionnellement confondre des langues similaires. Si les transcriptions apparaissent dans la mauvaise langue, repassez à Whisper pour cette session.

Bascule automatique :

Si Parakeet ne peut pas démarrer une session sur votre appareil (par exemple, après une mise à jour de l’OS qui modifie le format du modèle sur l’appareil), Hedy bascule automatiquement vers Whisper pour cette session et vous propose une invite en un seul appui pour télécharger le nouveau modèle Parakeet depuis les Réglages. Vous ne perdez pas la session.

Configurer Local Speech Recognition (Nemotron)

Nemotron est actuellement en Beta. Comme Parakeet, il transcrit entièrement sur l’appareil via le Neural Engine de votre iPhone, iPad ou Mac, et affiche des transcriptions en direct pendant que vous parlez. Il est disponible sur iOS et macOS.

Exigences de l’appareil :

Mac Apple Silicon (M1 ou plus récent), ou
iPhone 12 ou plus récent, ou iPad Air 4 ou plus récent

Anglais uniquement ou multilingue :

Dans le menu déroulant des fournisseurs, Nemotron apparaît comme deux choix, afin que vous puissiez sélectionner celui qui correspond à vos réunions :

Local Speech Recognition (Nemotron English Only) : transcription anglaise en streaming, l’option la plus rapide.
Local Speech Recognition (Nemotron Multilingual) : streaming sur l’appareil dans un large ensemble de langues majeures, lorsque vous avez besoin de plus que l’anglais.

Les deux s’exécutent entièrement sur l’appareil, et les deux identifient la langue à partir de l’audio plutôt qu’à partir de votre réglage de langue de réunion.

Configuration initiale :

Sélectionnez Local Speech Recognition (Nemotron English Only) ou (Nemotron Multilingual) dans le menu déroulant des fournisseurs
Appuyez sur Download Nemotron model (environ 0,6 Go pour l’anglais uniquement, 0,7 Go pour le multilingue) — Wi-Fi recommandé
Une fois le téléchargement terminé, Nemotron est utilisé automatiquement lors de votre prochaine session

Étiquettes de locuteur et cache audio temporaire :

Nemotron indique qui parle, en direct comme après la session. Pour rendre ces étiquettes de locuteur plus précises, Hedy conserve l’audio de chaque session dans un cache temporaire sur l’appareil pendant le traitement, puis le supprime. Cet audio reste sur votre appareil. Le réglage Cache audio temporaire (Nemotron) est activé par défaut ; vous pouvez le désactiver dans les paramètres de Hedy, même si le laisser activé donne à Nemotron la meilleure attribution des locuteurs.

Configurer les fournisseurs cloud

Configuration de Deepgram :

Créez un compte sur console.deepgram.com
Générez une clé API depuis votre tableau de bord
Dans les paramètres de Hedy, sélectionnez Deepgram dans le menu déroulant
Collez votre clé API et appuyez sur « Test » pour vérifier
Choisissez vos préférences de modèle et de langue
Définissez la durée maximale de session pour contrôler les coûts

Configuration d’OpenAI :

Obtenez votre clé API depuis platform.openai.com/api-keys
Dans les paramètres de Hedy, sélectionnez OpenAI dans le menu déroulant
Saisissez votre clé API et testez la connexion
Choisissez votre modèle préféré
Activez éventuellement la Voice Activity Detection avec une sensibilité réglable
Définissez la durée maximale de session pour contrôler les coûts

Choisir le bon fournisseur

Sélectionnez en fonction de vos priorités et de votre cas d’utilisation :

Confidentialité avant tout : Utilisez n’importe quel moteur local (Whisper, Parakeet ou Nemotron) — l’audio ne quitte jamais votre appareil
Utilisation hors ligne : Tous les moteurs locaux fonctionnent sans connexion Internet
Fonctionnalités cloud : Deepgram et OpenAI offrent un traitement basé sur le cloud
Détection vocale : Whisper et OpenAI incluent des fonctionnalités de Voice Activity Detection
Mise en forme intelligente : Deepgram propose des options de mise en forme automatique
Aucun coût d’utilisation : Les moteurs locaux (Whisper, Parakeet, Nemotron) ne facturent aucun frais à la minute
Transcription sur l’appareil plus rapide : Sur les Mac Apple Silicon, iPhone et iPad compatibles, les moteurs de streaming (Parakeet et Nemotron, tous deux en Beta) offrent généralement une transcription avec une latence plus faible que Whisper
Streaming multilingue sur l’appareil : Sur les appareils Apple compatibles, Nemotron Multilingual (Beta) offre une transcription en direct sur l’appareil dans un large ensemble de langues
Couverture linguistique maximale sur l’appareil : Pour les langues non européennes sur l’appareil, préférez Whisper Large ou Nemotron Multilingual
Analyse entièrement privée : Sur macOS (Apple Silicon) ou Windows, vous pouvez associer la reconnaissance vocale locale au Traitement IA local pour que la transcription et l’analyse IA restent entièrement sur votre appareil.

Considérations tarifaires

Comprendre les implications tarifaires de chaque fournisseur :

Local Speech Recognition (Whisper) : Gratuit — aucun frais d’utilisation
Local Speech Recognition (Parakeet) : Gratuit — aucun frais d’utilisation (téléchargement unique du modèle d’environ 0,5 Go)
Local Speech Recognition (Nemotron) : Gratuit — aucun frais d’utilisation (téléchargement unique du modèle, environ 0,6 à 0,7 Go)
Deepgram : Tarification à la minute (consultez les tarifs actuels sur leur tableau de bord)
OpenAI : Tarification à l’utilisation (consultez les tarifs actuels sur leur plateforme)

Le paramètre de durée maximale de session aide à prévenir les enregistrements accidentels de nuit et à gérer les coûts API.

Bonnes pratiques

Commencez par Local Speech Recognition (Whisper) pour vous familiariser avec la fonctionnalité, puis essayez Parakeet ou Nemotron si votre appareil est compatible
Testez les fournisseurs cloud avec de courts enregistrements avant les sessions importantes
Surveillez votre consommation API sur les tableaux de bord des fournisseurs pour suivre les coûts
Utilisez différents fournisseurs pour différents scénarios selon vos besoins
Passez au mode local lorsque vous voyagez ou dans des zones avec une connexion Internet limitée
Définissez des durées maximales de session appropriées (60 à 120 minutes pour les réunions classiques)

Dépannage

La clé API ne fonctionne pas

Assurez-vous d’avoir copié la clé complète sans espaces
Vérifiez que votre compte dispose de crédits disponibles
Vérifiez que la clé API dispose des autorisations nécessaires
Essayez de regénérer la clé depuis le tableau de bord du fournisseur

Le test de connexion a échoué

Vérifiez la stabilité de votre connexion Internet
Vérifiez que le pare-feu ne bloque pas les connexions WebSocket
Assurez-vous que la clé API est active avec un quota suffisant
Patientez un instant et réessayez (problèmes de service temporaires)

Problèmes de transcription

Pour Whisper sur Windows : si la transcription prend beaucoup de retard sur la conversation, vérifiez les paramètres GPU de transcription lente
Pour les termes spécialisés, noms et acronymes : ajoutez-les via la fonctionnalité de vocabulaire personnalisé
Pour Whisper : Essayez une taille de modèle différente
Pour Parakeet : Si les transcriptions apparaissent dans la mauvaise langue lors d’une session multilingue, repassez à Whisper pour cette session
Pour Nemotron : Utilisez le mode English Only pour les réunions en anglais ; pour les autres langues, utilisez le mode Multilingual ou passez à Whisper avec la langue définie explicitement
Pour le cloud : Vérifiez la stabilité de la connexion Internet
Assurez-vous que le microphone est correctement configuré
Minimisez le bruit de fond pendant l’enregistrement

Les paramètres ne se sauvegardent pas

Attendez que l’indicateur « Saved » apparaisse
Ne changez pas d’écran pendant la sauvegarde
Redémarrez l’application si les problèmes persistent
Assurez-vous de disposer d’une connexion Internet stable

Vos clés API sont stockées de manière sécurisée dans le trousseau chiffré de votre appareil et ne sont jamais transmises aux serveurs de Hedy. Pour une confidentialité maximale lors de conversations sensibles, utilisez toujours un moteur local (Whisper, Parakeet ou Nemotron).