Habt ihr schon den Copilot / GPT Voice-Mode probiert? Ist ziemlich beeindruckend, wenn es funktionieren würde. 3 Gründe, die leider den Spaß verderben. Es funktioniert nicht richtig.
Der GPT-4o Voice Mode, den auch Copilot mittlerweile kostenlos anbietet, ist vorweg der beste Sprachassistent, den ich jemals verwendet habe.
So gut hat die Spracherkennung noch nie funktioniert und man kann mit der KI sogar in mehreren Sprachen sprechen, teilweise sogar mixen, was früher zum Beispiel mit Cortana, Alexa, Siri eine Katastrophe war.
Disclaimer: Habe den Sprachmodus in der Web-App, im "AI Browser" Edge (eigene Funktion) und unter Windows 11 (mit einem Surface Gerät) und Android getestet.
Die Probleme beziehen sich leider auf alle getesteten Versionen, haben aber vielleicht damit zu tun, dass im Hintergrund die Web-App verwendet wird.
3 Gründe, die im Moment den Spaß am Voice-Mode verderben:
1 // Voice-Mode funktioniert nicht.
Der Voice-Mode funktioniert leider nicht richtig. Die KI bricht die Antwort nach 1-2 Sätzen ab, wenn es sich um eine längere Antwort handelt, hört auf zu sprechen, obwohl der Text teilweise generiert wurde.
Auch nach ein zwei Folgefragen ist Sense. Die KI antwortet dann gar nicht mehr.
Weiß nicht genau, woran das liegt, vielleicht erkennt das Mikrofon irrtümlich Hintergrundgeräusche, wie lautes Atmen, als Sprechen und bricht die Konversation dann ab. Leider besteht das Problem schon seit Wochen und auch auf mehreren Geräten.
2 // Spracherkennung ist gut, aber nicht perfekt.
Das zweite Problem ist, dass die Spracherkennung zwar gut ist, aber nicht perfekt. Immer wieder werden einfache Wörter falsch verstanden. Bei seltenen Wörtern ist es noch schlimmer. Vielleicht liegt es auch an meiner Aussprache, vor allem wenn man als nicht native Speaker auf Englisch mit der KI plaudert. Die Fehlerrate ist gefühlt leider immer noch zu hoch und noch nicht auf AGI-Level.
3 // Folgefragen nerven.
Der Voice-Mode ist standardmäßig sehr gesprächig und emotional. Flirtatious. Nach jeder Frage folgt eine persönliche Gegenfrage, warum man etwas gefragt hat. Finde das nervt nach einiger Zeit, wenn man die KI eher als Assistenten und nicht als AI-Girlfriend verwenden möchte.
Was sagt ihr dazu? Habt ihr den Copilot/GPT-4o Voice-Mode schon getestet? Was sind eure Erfahrungen damit?
Screenshot: Copilot Voice Mode
English
Have you tried the Copilot / GPT voice mode? It's pretty impressive if it would work.
The GPT-4o Voice Mode, which Copilot now offers for free, is the best voice assistant I have ever used.
Voice recognition has never worked so well and you can even speak to the AI in several languages, sometimes even mixing them, which used to be a disaster with Cortana, Alexa and Siri in the past.
Disclaimer: I tested the voice mode in the web app, in the “AI browser” Edge (own function) and under Windows 11 (with a Surface device) and Android.
The problems unfortunately apply to all versions tested, but may have something to do with the web app being used in the background.
3 reasons that spoil the fun of voice mode at the moment:
1 // Voice-Mode does not work.
Unfortunately, voice mode is not working properly. The AI aborts the answer after 1-2 sentences if it is a longer answer, stops speaking even though the text has been partially generated.
It also stops completely after one or two follow-up questions. The AI then no longer answers at all.
I don't know exactly what the reason for this is, perhaps the microphone mistakenly recognizes background noises, such as loud breathing, as speech and then interrupts the conversation. Unfortunately, the problem has persisted for weeks and on several devices.
2 // Voice recognition is good, but not perfect.
The second problem is that speech recognition is good, but not perfect. Simple words are repeatedly misunderstood. It's even worse with rare words. Perhaps it's also down to my pronunciation, especially if you are a non-native speaker chatting to the AI in English. Unfortunately, the error rate still feels too high and not yet at AGI level.
3 // Follow-up questions are annoying.
The voice mode is very talkative and emotional by default. Flirtatious. Every question is followed by a personal counter question about why you asked something in the first place. I find this annoying after a while if you want to use the AI as an assistant rather than an AI girlfriend.
What do you think? Have you already tested the Copilot/GPT-4o voice mode? What is your experience with it?