Spracherkennungsanbieter in Hedy
Was sind Spracherkennungsanbieter?
Hedy unterstützt mehrere Spracherkennungsoptionen und bietet Ihnen die Flexibilität, zwischen vollständiger Privatsphäre durch lokale Verarbeitung und cloudbasierten Alternativen zu wählen. Sie können jederzeit zwischen Anbietern wechseln — nutzen Sie die lokale Verarbeitung für Offline-Sitzungen und Cloud-Dienste, wenn Sie deren spezifische Funktionen bevorzugen.
Erste Schritte
-
Öffnen Sie die Hedy-App
-
Navigieren Sie zu den Einstellungen (tippen Sie auf Ihr Profilsymbol)
-
Scrollen Sie zu “Speech Recognition Options”
-
Wählen Sie Ihren bevorzugten Anbieter aus dem Dropdown-Menü
-
Konfigurieren Sie bei Bedarf anbieterspezifische Einstellungen
-
Ihre Auswahl wird in der nächsten Aufnahmesitzung wirksam
Verfügbare Anbieter
Hedy bietet fünf Spracherkennungsoptionen, jede mit eigenen Merkmalen:
-
Local Speech Recognition (Whisper): Standardoption — 100 % privat, funktioniert offline, keine Nutzungskosten. Ihre Audiodaten verlassen niemals Ihr Gerät. Auf allen von Hedy unterstützten Plattformen verfügbar.
-
Local Speech Recognition (Parakeet) [Beta]: Eine neuere On-Device-Engine, die vollständig auf der Neural Engine Ihres Geräts läuft. Optimiert für Englisch und die wichtigsten europäischen Sprachen mit schnelleren Transkripten und geringerer Latenz. Verfügbar auf Apple-Silicon-Macs sowie auf iPhone 12 (oder neuer) und iPad Air 4 (oder neuer) mit iOS 17 oder neuer. Erfordert einen einmaligen Modell-Download von ca. 0,5 GB.
-
Local Speech Recognition (Nemotron) [Beta]: Eine neuere On-Device-Streaming-Engine, die ebenfalls vollständig auf der Neural Engine Ihres Geräts läuft, mit Live-Transkripten und Sprecherlabels auf dem Gerät. Sie wählen zwischen einem English Only-Modus (die schnellste Option) und einem Multilingual-Modus, der eine breite Auswahl wichtiger Sprachen abdeckt. Verfügbar auf denselben Apple-Geräten wie Parakeet: Apple Silicon Macs sowie iPhone 12 (oder neuer) und iPad Air 4 (oder neuer). Erfordert einen einmaligen Modell-Download (etwa 0,6 GB für English Only, 0,7 GB für Multilingual).
-
Deepgram: Cloudbasierter Dienst mit Echtzeit-Streaming und intelligenten Formatierungsfunktionen. Verwendet Nova-3, das Dutzende von Sprachen unterstützt. Hedy stellt jede von Nova-3 unterstützte Sprache bereit, sodass Sie Meetings in jeder unterstützten Sprache transkribieren können, ohne den Anbieter zu wechseln. Erfordert Ihren eigenen API-Key.
-
OpenAI: Cloud-Transkription mit Voice Activity Detection und automatischer Spracherkennung. Hedy setzt Sitzungen, die das 60-Minuten-Verbindungslimit von OpenAI überschreiten, automatisch fort, indem es im Hintergrund Verbindungen rotiert, sodass auch längere Meetings ohne Unterbrechung durchlaufen. Erfordert Ihren eigenen API-Key.
Local Speech Recognition (Whisper) konfigurieren
Wenn Sie Whisper verwenden, können Sie die Einstellungen für Ihr Gerät optimieren:
Für macOS-Nutzer:
-
Small Model: Schnellste Verarbeitung, empfohlen für Intel-Macs
-
Regular Model: Ausgewogene Geschwindigkeit und Genauigkeit für die meisten Nutzer
-
Large Model: Erweiterte Fähigkeiten für nicht-englische Sprachen (erfordert 1,5 GB Download)
Für iOS/Android-Nutzer:
-
Standard Model: Standardoption, geeignet für die meisten Geräte
-
Large Model: Alternative Modelloption (iPhone 12+ oder Android ab 2024 empfohlen)
Voice Activity Detection (VAD):
VAD filtert automatisch Stille und Hintergrundgeräusche heraus, um die Transkriptionsqualität zu verbessern. Diese Funktion ist standardmäßig für Whisper aktiviert.
-
Aktivieren/Deaktivieren: Schalten Sie VAD je nach Aufnahmeumgebung ein oder aus
-
Empfindlichkeit: Stellen Sie von “High Sensitivity” (erfasst mehr Sprache, einschließlich leiserer Geräusche) bis “Maximum Filtering” (erfasst nur deutliche Sprache, filtert mehr Hintergrundgeräusche) ein
Transkript-Geschwindigkeitseinstellungen:
-
Slower: Wartet auf vollständige Sätze vor der Anzeige
-
Normal: Ausgewogene Geschwindigkeit und Anzeigetiming
-
Faster: Nahezu Echtzeit-Anzeige mit häufigeren Aktualisierungen
Local Speech Recognition (Parakeet) konfigurieren
Parakeet befindet sich derzeit in der Beta-Phase. Die Transkription erfolgt vollständig auf dem Gerät über die Neural Engine Ihres iPhones, iPads oder Macs und liefert für unterstützte Sprachen ein schnelleres Transkript mit geringerer Latenz als Whisper.
Gerätevoraussetzungen:
-
Apple-Silicon-Mac (M1 oder neuer), oder
-
iPhone 12 oder neuer, oder iPad Air 4 oder neuer, mit iOS 17 oder neuer
Erstmalige Einrichtung:
-
Wählen Sie Local Speech Recognition (Parakeet) im Anbieter-Dropdown
-
Tippen Sie auf Download Parakeet Model (~0.5 GB) — WLAN empfohlen
-
Sobald der Download abgeschlossen ist, wird Parakeet in Ihrer nächsten Sitzung automatisch verwendet
Sprachunterstützung:
Parakeet funktioniert am besten für Englisch und die wichtigsten europäischen Sprachen. In Einzelfällen können ähnliche Sprachen falsch erkannt werden. Falls Transkripte in der falschen Sprache ausgegeben werden, wechseln Sie für diese Sitzung zurück zu Whisper.
Automatischer Fallback:
Wenn Parakeet auf Ihrem Gerät keine Sitzung starten kann (zum Beispiel, weil ein OS-Update das On-Device-Modellformat geändert hat), wechselt Hedy für diese Sitzung automatisch zu Whisper und bietet Ihnen einen Ein-Tipp-Hinweis, das neue Parakeet-Modell in den Einstellungen herunterzuladen. Ihre Sitzung geht nicht verloren.
Local Speech Recognition (Nemotron) konfigurieren
Nemotron befindet sich derzeit in der Beta-Phase. Wie Parakeet transkribiert es vollständig auf dem Gerät über die Neural Engine Ihres iPhones, iPads oder Macs und zeigt Live-Transkripte, während Sie sprechen. Es ist auf iOS und macOS verfügbar.
Gerätevoraussetzungen:
-
Apple Silicon Mac (M1 oder neuer), oder
-
iPhone 12 oder neuer, oder iPad Air 4 oder neuer
Nur Englisch oder mehrsprachig:
Im Anbieter-Dropdown erscheint Nemotron als zwei Optionen, damit Sie die passende für Ihre Meetings wählen können:
-
Local Speech Recognition (Nemotron English Only): Streaming-Transkription auf Englisch, die schnellste Option.
-
Local Speech Recognition (Nemotron Multilingual): On-Device-Streaming über eine breite Auswahl wichtiger Sprachen hinweg, wenn Sie mehr als Englisch benötigen.
Beide laufen vollständig auf dem Gerät, und beide erkennen die Sprache aus dem Audio statt aus Ihrer Meeting-Spracheinstellung.
Erstmalige Einrichtung:
-
Wählen Sie Local Speech Recognition (Nemotron English Only) oder (Nemotron Multilingual) im Anbieter-Dropdown
-
Tippen Sie auf Download Nemotron model (etwa 0,6 GB für English Only, 0,7 GB für Multilingual) — WLAN empfohlen
-
Sobald der Download abgeschlossen ist, wird Nemotron in Ihrer nächsten Sitzung automatisch verwendet
Sprecherlabels und der temporäre Audio-Cache:
Nemotron beschriftet live und nach der Sitzung, wer spricht. Damit diese Sprecherlabels genauer werden, behält Hedy das Audio jeder Sitzung während der Verarbeitung in einem temporären On-Device-Cache und löscht es danach. Dieses Audio bleibt auf Ihrem Gerät. Die Einstellung Temporärer Audio-Cache (Nemotron) ist standardmäßig aktiviert; Sie können sie in Hedys Einstellungen deaktivieren, wobei Nemotron mit aktivierter Einstellung die beste Sprecherzuordnung liefert.
Cloud-Anbieter einrichten
Deepgram einrichten:
-
Erstellen Sie ein Konto auf console.deepgram.com
-
Generieren Sie einen API-Key in Ihrem Dashboard
-
Wählen Sie in den Hedy-Einstellungen Deepgram aus dem Dropdown
-
Fügen Sie Ihren API-Key ein und tippen Sie auf “Test” zur Überprüfung
-
Wählen Sie Ihr bevorzugtes Modell und Ihre Spracheinstellungen
-
Legen Sie eine maximale Sitzungsdauer fest, um die Kosten zu kontrollieren
OpenAI einrichten:
-
Holen Sie Ihren API-Key von platform.openai.com/api-keys
-
Wählen Sie in den Hedy-Einstellungen OpenAI aus dem Dropdown
-
Geben Sie Ihren API-Key ein und testen Sie die Verbindung
-
Wählen Sie Ihr bevorzugtes Modell
-
Aktivieren Sie optional die Voice Activity Detection mit einstellbarer Empfindlichkeit
-
Legen Sie eine maximale Sitzungsdauer zur Kostenkontrolle fest
Den richtigen Anbieter wählen
Wählen Sie basierend auf Ihren Prioritäten und Ihrem Anwendungsfall:
-
Datenschutz zuerst: Nutzen Sie eine beliebige lokale Engine (Whisper, Parakeet oder Nemotron) — Audio verlässt niemals Ihr Gerät
-
Offline-Nutzung: Alle lokalen Engines funktionieren ohne Internet
-
Cloud-Funktionen: Deepgram und OpenAI bieten cloudbasierte Verarbeitung
-
Spracherkennung: Whisper und OpenAI bieten Voice Activity Detection
-
Intelligente Formatierung: Deepgram bietet automatische Formatierungsoptionen
-
Keine Nutzungskosten: Lokale Engines (Whisper, Parakeet, Nemotron) haben keine minutenbasierten Kosten
-
Schnellere On-Device-Transkription: Auf unterstützten Apple Silicon Macs, iPhones und iPads liefern die Streaming-Engines (Parakeet und Nemotron, beide Beta) üblicherweise ein Transkript mit geringerer Latenz als Whisper
-
Mehrsprachiges On-Device-Streaming: Auf unterstützten Apple-Geräten bietet Nemotron Multilingual (Beta) Live-On-Device-Transkription über eine breite Auswahl an Sprachen hinweg
-
Maximale Sprachabdeckung auf dem Gerät: Für nicht-europäische Sprachen auf dem Gerät bevorzugen Sie Whisper Large oder Nemotron Multilingual
-
Vollständig private Analyse: Auf macOS (Apple Silicon) oder Windows können Sie die lokale Spracherkennung mit der lokalen KI-Verarbeitung kombinieren, um sowohl Transkription als auch KI-Analyse vollständig auf dem Gerät zu halten.
Kostenhinweise
Die Kostenauswirkungen der einzelnen Anbieter im Überblick:
-
Local Speech Recognition (Whisper): Kostenlos — keine Nutzungsgebühren
-
Local Speech Recognition (Parakeet): Kostenlos — keine Nutzungsgebühren (einmaliger Modell-Download von ca. 0,5 GB)
-
Local Speech Recognition (Nemotron): Kostenlos — keine Nutzungsgebühren (einmaliger Modell-Download, etwa 0,6-0,7 GB)
-
Deepgram: Minutenbasierte Abrechnung (aktuelle Preise auf dem Dashboard einsehbar)
-
OpenAI: Nutzungsbasierte Abrechnung (aktuelle Preise auf der Plattform einsehbar)
Die Einstellung für die maximale Sitzungsdauer hilft, versehentliche Über-Nacht-Aufnahmen zu vermeiden und API-Kosten zu kontrollieren.
Empfohlene Vorgehensweisen
-
Beginnen Sie mit Local Speech Recognition (Whisper), um sich mit der Funktion vertraut zu machen, und probieren Sie anschließend Parakeet oder Nemotron aus, falls Ihr Gerät unterstützt wird
-
Testen Sie Cloud-Anbieter mit kurzen Aufnahmen vor wichtigen Sitzungen
-
Überwachen Sie Ihre API-Nutzung auf den Anbieter-Dashboards, um Kosten im Blick zu behalten
-
Nutzen Sie verschiedene Anbieter für verschiedene Szenarien je nach Bedarf
-
Wechseln Sie auf lokal, wenn Sie unterwegs sind oder eingeschränktes Internet haben
-
Stellen Sie angemessene maximale Sitzungsdauern ein (60-120 Minuten für typische Meetings)
Fehlerbehebung
API-Key funktioniert nicht
-
Stellen Sie sicher, dass Sie den vollständigen Key ohne Leerzeichen kopiert haben
-
Überprüfen Sie, ob Ihr Konto über verfügbares Guthaben verfügt
-
Prüfen Sie, ob der API-Key die erforderlichen Berechtigungen hat
-
Versuchen Sie, den Key im Anbieter-Dashboard neu zu generieren
Verbindungstest fehlgeschlagen
-
Überprüfen Sie die Stabilität Ihrer Internetverbindung
-
Stellen Sie sicher, dass die Firewall keine WebSocket-Verbindungen blockiert
-
Vergewissern Sie sich, dass der API-Key aktiv ist und ausreichend Kontingent hat
-
Warten Sie einen Moment und versuchen Sie es erneut (vorübergehende Dienstprobleme)
Transkriptionsprobleme
-
Für Whisper unter Windows: Wenn die Transkription der Unterhaltung stark hinterherhinkt, prüfen Sie die GPU-Einstellungen für langsame Transkription
-
Für Fachbegriffe, Namen und Abkürzungen: Fügen Sie sie über die Funktion benutzerdefiniertes Vokabular hinzu
-
Für Whisper: Versuchen Sie eine andere Modellgröße
-
Für Parakeet: Wenn Transkripte in einer mehrsprachigen Sitzung in der falschen Sprache erscheinen, wechseln Sie für diese Sitzung zu Whisper
-
Für Nemotron: Verwenden Sie den English Only-Modus für Meetings auf Englisch; für andere Sprachen verwenden Sie den Multilingual-Modus oder wechseln Sie zu Whisper mit explizit gesetzter Sprache
-
Für Cloud: Überprüfen Sie die Stabilität der Internetverbindung
-
Stellen Sie sicher, dass das Mikrofon korrekt konfiguriert ist
-
Minimieren Sie Hintergrundgeräusche während der Aufnahme
Einstellungen werden nicht gespeichert
-
Warten Sie, bis die Anzeige “Saved” erscheint
-
Wechseln Sie nicht den Bildschirm während des Speicherns
-
Starten Sie die App neu, wenn das Problem weiterhin besteht
-
Stellen Sie eine stabile Internetverbindung sicher
Ihre API-Keys werden sicher im verschlüsselten Schlüsselbund Ihres Geräts gespeichert und niemals an Hedy-Server übermittelt. Für maximale Privatsphäre bei sensiblen Gesprächen verwenden Sie immer eine lokale Engine (Whisper, Parakeet oder Nemotron).