Der Voice Mode von ChatGPT: So nah war KI dem Menschen noch nie

ChatGPT revolutioniert die Welt. Es kann Texte generieren, Fragen beantworten und sogar geschriebene Dialoge führen, ähnlich wie ein Mensch. Es basiert auf einem großen Sprachmodell, GPT, das von OpenAI entwickelt wurde und erleichtert Menschen in vielerlei Hinsicht die Arbeit. Ob im Studium, auf der Arbeit oder im gewöhnlichen Alltag, durch automatisierte Antworten greift der Chatbot seinen Nutzern unter die Arme und lässt sie Zeit sparen.

Jetzt hat OpenAI die vielen Funktionen noch erweitert und eins drauf gesetzt: Mit dem KI Voice Mode.

Er ermöglicht es Nutzern, mit dem KI-Programm zu reden und eine sprachliche Antwort zu erhalten. Das eröffnet ChatGPT-Nutzern neue Möglichkeiten – und vor allem eine neue Nähe, da eine menschenähnliche Konversationen imitiert wird.

Der folgende Blogartikel schaut sich genauer an, wie der Voice Mode funktioniert, was er für Vorteile hat und welche Bedenken es gibt.

2. Was ist der Voice Mode?

Der sogenannte „Voice Mode“ von ChatGPT bringt eine neue Ebene der Interaktion in die KI-Welt: Nutzer können eine sprachliche Konversation mit dem Computer führen. Während man sich selbst beim Reden aufnehmen kann, hört ChatGPT zu und antwortet ebenfalls gesprochen. Dadurch kommt die KI-Nutzung der menschlichen Interaktion einen weiteren Schritt näher. Es gibt hierbei zwei Versionen, die genutzt werden können:

Standard Voice Mode: Alle Accounts die Standard-Sprachfunktion mit einem Zeitlimit nutzen. Diese beinhaltet das Transkribieren der Sprachaufnahmen und sendet diese an die entsprechenden KI-Modelle, um eine Antwort zu generieren.

Advanced Voice Mode: Diese Sprachfunktion ist lediglich für Nutzer mit kostenpflichtigem Abonnement verfügbar, sowie für Nutzer ohne Abo als limitierte Version. Das umfasst die Möglichkeit, Audios zu erzeugen, sodass natürliche Gespräche in Echtzeit entstehen. Dabei werden nonverbale Hinweise, wie die Sprechgeschwindigkeit wahrgenommen und es kann mit Emotionen reagiert werden. Hinzu kommt, dass Nutzer die Möglichkeit haben, aus neun verschiedenen Stimmen auszuwählen, welche verschiedene Charaktere widerspiegeln:

Unbeschwert und vielseitig
Lebhaft und ernsthaft
Gelassen und direkt
Selbstbewusst und optimistisch
Offen und optimistisch
Fröhlich und offen
Klug und entspannt
Ruhig und bejahend
Hell und neugierig

3. Wie aktiviere ich den Voice Mode?

Die neue Sprachfunktion ist sowohl in der App als auch auf der Webseite verfügbar und kann jederzeit aktiviert werden.

In der App gibt es ein Sprachsymbol unten Rechts auf dem Bildschirm. Wenn Nutzer diesen anklicken, werden sie weitergeleitet zu einem Bildschirm mit einer blauen oder schwarzen Kugel, je nachdem welches Modell verwendet wird. Man kann hierbei das eigene Mikrofon an- und ausschalten, sowie die Funktion jederzeit verlassen.

Auf der Webseite funktioniert das Sprachmodell sehr ähnlich. Nutzer müssen jedoch dem Browser zuerst Zugriff auf das Mikrofon geben, damit es genutzt werden kann. Bei der ersten Verwendung können Nutzer außerdem die Stimme des Computers auswählen.

4. Was unterscheidet den Voice Mode von Siri und Co.?

Durch die Echtzeit Gespräche und die verschiedenen Charaktere, die das Sprachmodell von ChatGPT annehmen kann, entsteht eine menschenähnliche Interaktion. Im ersten Moment klingt das gar nicht so Neuartig. Sprachmodelle wie Alexa und Siri können schon seit Jahren allein durch Sprechen gesteuert werden. Doch auf den zweiten Blick unterscheidet sich der Voice Mode von ChatGPT doch enorm:

Siri und ähnliche Modelle haben vordefinierte Antworten und sind auf konkrete Kommandos beschränkt.

Der Voice Mode ist jedoch in der Lage, zusammenhängende, dynamische Gespräche zu führen. Diese Funktionen sind in verschiedenen Situationen hilfreich:

Als interaktive Lernhilfe, zum Beispiel, um sich auf ein Interview oder eine mündliche Prüfung vorzubereiten.
Um Sprachen zu üben und somit die Aussprache, Sprachgefühl und Vokabular zu verbessern.
Spontane Fragen unterwegs beantworten, ohne tippen zu müssen.
Für Menschen mit körperlicher Einschränkung, zum Beispiel eine Sehbehinderung.

5. Was passiert mit meinen persönlichen Daten?

Doch neben den vielen Vorteilen bietet die neue Sprachfunktion auch die Gefahr, private Informationen mit dem Computer zu teilen – mehr als das bereits der Fall ist. Das kann Nutzern auch Sorgen machen. Dazu äußert sich OpenAI und erklärt ausdrücklich, dass die Sprachaufnahmen so lange gespeichert bleiben, wie der Chatverlauf vorhanden ist (Voice Mode FAQ, n.d.). Sobald Nutzer:innen einen Chat löschen, werden auch die Inhalte innerhalb von 30 Tagen von der Plattform entfernt. Das trifft jedoch nicht zu in Fällen der Sicherheit oder aus juristischen Gründen, wo die Daten weiterhin von OpenAI gesichert werden. Außerdem können Nutzer ihre Daten freigeben, damit sie genutzt werden können, um die KI zu trainieren.

Um genauer auf die Sprachdateien einzugehen, wird jede Audioaufnahme transkribiert, um eine Antwort zu generieren. Hierbei wird lediglich der Text gespeichert, die Sprachdatei wird jedoch gelöscht, außer Nutzer haben sie zum Training der KI freigegeben. Diese Option muss aktiv von Nutzern in den Einstellungen freigeschaltet werden und sie können auswählen, welche Informationen verwendet werden. Audio- oder Videodateien müssen hierfür erneut aktiv eingeschaltet werden, andere Daten, wie Transkripte oder hochgeladene Bilder werden automatisch verwendet. Somit sind Nutzer:innen in der Lage, ihre persönlichen Informationen, die sie mit der KI teilen, zumindest bis zu einem suitableimmten Punkt zu sichern.

Fazit: Der Voice Mode als KI oder Gesprächspartner?

Alles in allem lässt sich sagen, dass ChatGPT mit dem Voice Mode die Messlatte für KI-Systeme enorm gehoben hat.

Durch die Funktion, zusammenhängende, dynamische Gespräche zu führen, wird ein menschliches Gespräch simuliert, was in den verschiedensten Situationen hilfreich sein kann. Gleichzeitig stellt die neue Funktion auch ein Risiko dar: Menschen öffnen sich so mehr denn je dem Computer gegenüber. Und OpenAI kann diese Daten verwenden, zum Beispiel um die KI weiter zu trainieren. Nutzer müssen sich daher bewusst sein, was sie mit ChatGPT teilen und wofür ihre Daten verwendet werden können. Mit der Option, persönliche Daten zu schützen, ermöglicht OpenAI jedoch einen gewissen Datenschutz und die Option, den Zugriff der KI auf persönliche Informationen einzuschränken.

Daher ist sicher: Der Voice Mode ist ein bedeutender Schritt in Richtung natürlicher Kommunikation mit KI. Diese Funktion bringt Mensch und Computer einen weiteren Schritt näher.

Jetzt kostenloses Erstgespräch vereinbaren

Company*

Vorname*

Nachname*

E-Mail

Telefon*

Beschreiben Sie Ihre Herausforderungen

term1

Ich stimme zu, Benachrichtigungen von TechNow* zu erhalten.

term2

Ja, ich habe die Bedingungen gelesen und stimme ihnen zu. Datenschutzrichtlinie*.

Details

15.11.2025
3 Min
tech-now-client

Aktie

Buchen Sie noch heute Ihre kostenlose KI-Beratung

Stellen Sie sich vor, Sie könnten Ihren Affiliate-Marketing-Umsatz verdoppeln, ohne Ihren Arbeitsaufwand zu verdoppeln. Klingt zu schön, um wahr zu sein. Dank der schnellen …

AM BELIEBTESTEN

KI SERVICES

ANDERE SERVICES

Kontakt

Marie Elsner

Account Executive