Spracherkennungsanbieter in Hedy

Was sind Spracherkennungsanbieter?

Hedy unterstützt mehrere Spracherkennungsoptionen und bietet Ihnen die Flexibilität, zwischen vollständiger Privatsphäre durch lokale Verarbeitung und cloudbasierten Alternativen zu wählen. Sie können jederzeit zwischen Anbietern wechseln — nutzen Sie die lokale Verarbeitung für Offline-Sitzungen und Cloud-Dienste, wenn Sie deren spezifische Funktionen bevorzugen.

Erste Schritte

Öffnen Sie die Hedy-App
Navigieren Sie zu den Einstellungen (tippen Sie auf Ihr Profilsymbol)
Scrollen Sie zu “Speech Recognition Options”
Wählen Sie Ihren bevorzugten Anbieter aus dem Dropdown-Menü
Konfigurieren Sie bei Bedarf anbieterspezifische Einstellungen
Ihre Auswahl wird in der nächsten Aufnahmesitzung wirksam

Verfügbare Anbieter

Hedy bietet fünf Spracherkennungsoptionen, jede mit eigenen Merkmalen:

Local Speech Recognition (Whisper): Standardoption — 100 % privat, funktioniert offline, keine Nutzungskosten. Ihre Audiodaten verlassen niemals Ihr Gerät. Auf allen von Hedy unterstützten Plattformen verfügbar.
Local Speech Recognition (Parakeet) [Beta]: Eine neuere On-Device-Engine, die vollständig auf der Neural Engine Ihres Geräts läuft. Optimiert für Englisch und die wichtigsten europäischen Sprachen mit schnelleren Transkripten und geringerer Latenz. Verfügbar auf Apple-Silicon-Macs sowie auf iPhone 12 (oder neuer) und iPad Air 4 (oder neuer) mit iOS 17 oder neuer. Erfordert einen einmaligen Modell-Download von ca. 0,5 GB.
Local Speech Recognition (Nemotron) [Beta]: Eine neuere On-Device-Streaming-Engine, die ebenfalls vollständig auf der Neural Engine Ihres Geräts läuft, mit Live-Transkripten und Sprecherlabels auf dem Gerät. Sie wählen zwischen einem English Only-Modus (die schnellste Option) und einem Multilingual-Modus, der eine breite Auswahl wichtiger Sprachen abdeckt. Verfügbar auf denselben Apple-Geräten wie Parakeet: Apple Silicon Macs sowie iPhone 12 (oder neuer) und iPad Air 4 (oder neuer). Erfordert einen einmaligen Modell-Download (etwa 0,6 GB für English Only, 0,7 GB für Multilingual).
Deepgram: Cloudbasierter Dienst mit Echtzeit-Streaming und intelligenten Formatierungsfunktionen. Verwendet Nova-3, das Dutzende von Sprachen unterstützt. Hedy stellt jede von Nova-3 unterstützte Sprache bereit, sodass Sie Meetings in jeder unterstützten Sprache transkribieren können, ohne den Anbieter zu wechseln. Erfordert Ihren eigenen API-Key.
OpenAI: Cloud-Transkription mit Voice Activity Detection und automatischer Spracherkennung. Hedy setzt Sitzungen, die das 60-Minuten-Verbindungslimit von OpenAI überschreiten, automatisch fort, indem es im Hintergrund Verbindungen rotiert, sodass auch längere Meetings ohne Unterbrechung durchlaufen. Erfordert Ihren eigenen API-Key.

Local Speech Recognition (Whisper) konfigurieren

Wenn Sie Whisper verwenden, können Sie die Einstellungen für Ihr Gerät optimieren:

Für macOS-Nutzer:

Small Model: Schnellste Verarbeitung, empfohlen für Intel-Macs
Regular Model: Ausgewogene Geschwindigkeit und Genauigkeit für die meisten Nutzer
Large Model: Erweiterte Fähigkeiten für nicht-englische Sprachen (erfordert 1,5 GB Download)

Für iOS/Android-Nutzer:

Standard Model: Standardoption, geeignet für die meisten Geräte
Large Model: Alternative Modelloption (iPhone 12+ oder Android ab 2024 empfohlen)

Voice Activity Detection (VAD):

VAD filtert automatisch Stille und Hintergrundgeräusche heraus, um die Transkriptionsqualität zu verbessern. Diese Funktion ist standardmäßig für Whisper aktiviert.

Aktivieren/Deaktivieren: Schalten Sie VAD je nach Aufnahmeumgebung ein oder aus
Empfindlichkeit: Stellen Sie von “High Sensitivity” (erfasst mehr Sprache, einschließlich leiserer Geräusche) bis “Maximum Filtering” (erfasst nur deutliche Sprache, filtert mehr Hintergrundgeräusche) ein

Transkript-Geschwindigkeitseinstellungen:

Slower: Wartet auf vollständige Sätze vor der Anzeige
Normal: Ausgewogene Geschwindigkeit und Anzeigetiming
Faster: Nahezu Echtzeit-Anzeige mit häufigeren Aktualisierungen

Local Speech Recognition (Parakeet) konfigurieren

Parakeet befindet sich derzeit in der Beta-Phase. Die Transkription erfolgt vollständig auf dem Gerät über die Neural Engine Ihres iPhones, iPads oder Macs und liefert für unterstützte Sprachen ein schnelleres Transkript mit geringerer Latenz als Whisper.

Gerätevoraussetzungen:

Apple-Silicon-Mac (M1 oder neuer), oder
iPhone 12 oder neuer, oder iPad Air 4 oder neuer, mit iOS 17 oder neuer

Erstmalige Einrichtung:

Wählen Sie Local Speech Recognition (Parakeet) im Anbieter-Dropdown
Tippen Sie auf Download Parakeet Model (~0.5 GB) — WLAN empfohlen
Sobald der Download abgeschlossen ist, wird Parakeet in Ihrer nächsten Sitzung automatisch verwendet

Sprachunterstützung:

Parakeet funktioniert am besten für Englisch und die wichtigsten europäischen Sprachen. In Einzelfällen können ähnliche Sprachen falsch erkannt werden. Falls Transkripte in der falschen Sprache ausgegeben werden, wechseln Sie für diese Sitzung zurück zu Whisper.

Automatischer Fallback:

Wenn Parakeet auf Ihrem Gerät keine Sitzung starten kann (zum Beispiel, weil ein OS-Update das On-Device-Modellformat geändert hat), wechselt Hedy für diese Sitzung automatisch zu Whisper und bietet Ihnen einen Ein-Tipp-Hinweis, das neue Parakeet-Modell in den Einstellungen herunterzuladen. Ihre Sitzung geht nicht verloren.

Local Speech Recognition (Nemotron) konfigurieren

Nemotron befindet sich derzeit in der Beta-Phase. Wie Parakeet transkribiert es vollständig auf dem Gerät über die Neural Engine Ihres iPhones, iPads oder Macs und zeigt Live-Transkripte, während Sie sprechen. Es ist auf iOS und macOS verfügbar.

Gerätevoraussetzungen:

Apple Silicon Mac (M1 oder neuer), oder
iPhone 12 oder neuer, oder iPad Air 4 oder neuer

Nur Englisch oder mehrsprachig:

Im Anbieter-Dropdown erscheint Nemotron als zwei Optionen, damit Sie die passende für Ihre Meetings wählen können:

Local Speech Recognition (Nemotron English Only): Streaming-Transkription auf Englisch, die schnellste Option.
Local Speech Recognition (Nemotron Multilingual): On-Device-Streaming über eine breite Auswahl wichtiger Sprachen hinweg, wenn Sie mehr als Englisch benötigen.

Beide laufen vollständig auf dem Gerät, und beide erkennen die Sprache aus dem Audio statt aus Ihrer Meeting-Spracheinstellung.

Erstmalige Einrichtung:

Wählen Sie Local Speech Recognition (Nemotron English Only) oder (Nemotron Multilingual) im Anbieter-Dropdown
Tippen Sie auf Download Nemotron model (etwa 0,6 GB für English Only, 0,7 GB für Multilingual) — WLAN empfohlen
Sobald der Download abgeschlossen ist, wird Nemotron in Ihrer nächsten Sitzung automatisch verwendet

Sprecherlabels und der temporäre Audio-Cache:

Nemotron beschriftet live und nach der Sitzung, wer spricht. Damit diese Sprecherlabels genauer werden, behält Hedy das Audio jeder Sitzung während der Verarbeitung in einem temporären On-Device-Cache und löscht es danach. Dieses Audio bleibt auf Ihrem Gerät. Die Einstellung Temporärer Audio-Cache (Nemotron) ist standardmäßig aktiviert; Sie können sie in Hedys Einstellungen deaktivieren, wobei Nemotron mit aktivierter Einstellung die beste Sprecherzuordnung liefert.

Cloud-Anbieter einrichten

Deepgram einrichten:

Erstellen Sie ein Konto auf console.deepgram.com
Generieren Sie einen API-Key in Ihrem Dashboard
Wählen Sie in den Hedy-Einstellungen Deepgram aus dem Dropdown
Fügen Sie Ihren API-Key ein und tippen Sie auf “Test” zur Überprüfung
Wählen Sie Ihr bevorzugtes Modell und Ihre Spracheinstellungen
Legen Sie eine maximale Sitzungsdauer fest, um die Kosten zu kontrollieren

OpenAI einrichten:

Holen Sie Ihren API-Key von platform.openai.com/api-keys
Wählen Sie in den Hedy-Einstellungen OpenAI aus dem Dropdown
Geben Sie Ihren API-Key ein und testen Sie die Verbindung
Wählen Sie Ihr bevorzugtes Modell
Aktivieren Sie optional die Voice Activity Detection mit einstellbarer Empfindlichkeit
Legen Sie eine maximale Sitzungsdauer zur Kostenkontrolle fest

Den richtigen Anbieter wählen

Wählen Sie basierend auf Ihren Prioritäten und Ihrem Anwendungsfall:

Datenschutz zuerst: Nutzen Sie eine beliebige lokale Engine (Whisper, Parakeet oder Nemotron) — Audio verlässt niemals Ihr Gerät
Offline-Nutzung: Alle lokalen Engines funktionieren ohne Internet
Cloud-Funktionen: Deepgram und OpenAI bieten cloudbasierte Verarbeitung
Spracherkennung: Whisper und OpenAI bieten Voice Activity Detection
Intelligente Formatierung: Deepgram bietet automatische Formatierungsoptionen
Keine Nutzungskosten: Lokale Engines (Whisper, Parakeet, Nemotron) haben keine minutenbasierten Kosten
Schnellere On-Device-Transkription: Auf unterstützten Apple Silicon Macs, iPhones und iPads liefern die Streaming-Engines (Parakeet und Nemotron, beide Beta) üblicherweise ein Transkript mit geringerer Latenz als Whisper
Mehrsprachiges On-Device-Streaming: Auf unterstützten Apple-Geräten bietet Nemotron Multilingual (Beta) Live-On-Device-Transkription über eine breite Auswahl an Sprachen hinweg
Maximale Sprachabdeckung auf dem Gerät: Für nicht-europäische Sprachen auf dem Gerät bevorzugen Sie Whisper Large oder Nemotron Multilingual
Vollständig private Analyse: Auf macOS (Apple Silicon) oder Windows können Sie die lokale Spracherkennung mit der lokalen KI-Verarbeitung kombinieren, um sowohl Transkription als auch KI-Analyse vollständig auf dem Gerät zu halten.

Kostenhinweise

Die Kostenauswirkungen der einzelnen Anbieter im Überblick:

Local Speech Recognition (Whisper): Kostenlos — keine Nutzungsgebühren
Local Speech Recognition (Parakeet): Kostenlos — keine Nutzungsgebühren (einmaliger Modell-Download von ca. 0,5 GB)
Local Speech Recognition (Nemotron): Kostenlos — keine Nutzungsgebühren (einmaliger Modell-Download, etwa 0,6-0,7 GB)
Deepgram: Minutenbasierte Abrechnung (aktuelle Preise auf dem Dashboard einsehbar)
OpenAI: Nutzungsbasierte Abrechnung (aktuelle Preise auf der Plattform einsehbar)

Die Einstellung für die maximale Sitzungsdauer hilft, versehentliche Über-Nacht-Aufnahmen zu vermeiden und API-Kosten zu kontrollieren.

Empfohlene Vorgehensweisen

Beginnen Sie mit Local Speech Recognition (Whisper), um sich mit der Funktion vertraut zu machen, und probieren Sie anschließend Parakeet oder Nemotron aus, falls Ihr Gerät unterstützt wird
Testen Sie Cloud-Anbieter mit kurzen Aufnahmen vor wichtigen Sitzungen
Überwachen Sie Ihre API-Nutzung auf den Anbieter-Dashboards, um Kosten im Blick zu behalten
Nutzen Sie verschiedene Anbieter für verschiedene Szenarien je nach Bedarf
Wechseln Sie auf lokal, wenn Sie unterwegs sind oder eingeschränktes Internet haben
Stellen Sie angemessene maximale Sitzungsdauern ein (60-120 Minuten für typische Meetings)

Fehlerbehebung

API-Key funktioniert nicht

Stellen Sie sicher, dass Sie den vollständigen Key ohne Leerzeichen kopiert haben
Überprüfen Sie, ob Ihr Konto über verfügbares Guthaben verfügt
Prüfen Sie, ob der API-Key die erforderlichen Berechtigungen hat
Versuchen Sie, den Key im Anbieter-Dashboard neu zu generieren

Verbindungstest fehlgeschlagen

Überprüfen Sie die Stabilität Ihrer Internetverbindung
Stellen Sie sicher, dass die Firewall keine WebSocket-Verbindungen blockiert
Vergewissern Sie sich, dass der API-Key aktiv ist und ausreichend Kontingent hat
Warten Sie einen Moment und versuchen Sie es erneut (vorübergehende Dienstprobleme)

Transkriptionsprobleme

Für Whisper unter Windows: Wenn die Transkription der Unterhaltung stark hinterherhinkt, prüfen Sie die GPU-Einstellungen für langsame Transkription
Für Fachbegriffe, Namen und Abkürzungen: Fügen Sie sie über die Funktion benutzerdefiniertes Vokabular hinzu
Für Whisper: Versuchen Sie eine andere Modellgröße
Für Parakeet: Wenn Transkripte in einer mehrsprachigen Sitzung in der falschen Sprache erscheinen, wechseln Sie für diese Sitzung zu Whisper
Für Nemotron: Verwenden Sie den English Only-Modus für Meetings auf Englisch; für andere Sprachen verwenden Sie den Multilingual-Modus oder wechseln Sie zu Whisper mit explizit gesetzter Sprache
Für Cloud: Überprüfen Sie die Stabilität der Internetverbindung
Stellen Sie sicher, dass das Mikrofon korrekt konfiguriert ist
Minimieren Sie Hintergrundgeräusche während der Aufnahme

Einstellungen werden nicht gespeichert

Warten Sie, bis die Anzeige “Saved” erscheint
Wechseln Sie nicht den Bildschirm während des Speicherns
Starten Sie die App neu, wenn das Problem weiterhin besteht
Stellen Sie eine stabile Internetverbindung sicher

Ihre API-Keys werden sicher im verschlüsselten Schlüsselbund Ihres Geräts gespeichert und niemals an Hedy-Server übermittelt. Für maximale Privatsphäre bei sensiblen Gesprächen verwenden Sie immer eine lokale Engine (Whisper, Parakeet oder Nemotron).