Grok kann sehen: Elons Musks KI bietet visuelle Echtzeitanalyse
Grok Vision ist endlich da – und kann alles, was vor deiner Kamera passiert, in Echtzeit analysieren. Damit liefert xAI ein Feature, das den Usern bereits von anderen KI-Tools bekannt ist.

Schon seit 2023 kann ChatGPT nicht nur lesen und schreiben, sondern auch sehen, hören und sprechen. So ermöglicht es die Foto-Upload-Funktion, welche in eingeschränkter Form mittlerweile auch für User der kostenfreien Version verfügbar ist, den KI-Bot anhand von Foto-Uploads nach Lösungen oder Informationen zu fragen. Auch Microsofts Copilot kann seit vergangenem Jahr visuelle Inhalte analysieren und kontextualisieren.
Einen Schritt weiter ist Google kürzlich mit Gemini gegangen: Erste User können mit dem KI-Tool in Echtzeit Dinge vor der Kamera und auf ihrem Screen KI-gestützt ansehen und analysieren lassen. Nun hat auch xAI, das Unternehmen hinter Grok, eine Vision-Funktionalität angekündigt, die an Gemini erinnert.
Introducing Grok Vision, multilingual audio, and realtime search in Voice Mode. Available now.
Grok habla español
Grok parle français
Grok Türkçe konuşuyor
グロクは日本語を話す
ग्रोक हिंदी बोलता है pic.twitter.com/lcaSyty2n5— Ebby Amir (@ebbyamir) April 22, 2025
Grok Vision verfügt wie Gemini über ein Echtzeit-Feature, mit dem User Fragen zu den Objekten, Produkten oder Geschehnissen, die vor ihrer Smartphone-Kamera zu sehen sind, stellen können. Dokumente, Schilder und andere Textinhalte können von Grok Vision zudem gelesen und analysiert werden. Derzeit ist Grok Vision nur für User der iOS App verfügbar; der Launch für Android könnte jedoch bald folgen. Auf die Veröffentlichung des Features haben die User lange gewartet: Schon im April 2024 kündigte xAI eine Preview der Vision-Funktion an.
Grok Vision folgt auf Grok Voice
Neben Grok Vision hat xAI weitere neue Funktionen für den KI-Bot angekündigt: So verfügt Grok jetzt über eine mehrsprachige Audiounterstützung. Die User erhalten außerdem die Möglichkeit, auf eine Echtzeitsuche im Sprachmodus zurückzugreifen. Im Gegensatz zu Grok Vision sind diese Funktionen auch für Android User verfügbar – insofern diese den kostenpflichtigen SuperGrok-Plan abonniert haben.
Und damit nicht genug: Vor wenigen Wochen entdeckten erste User eine Custom-Voice-Funktion für Grok. Von dem Feature, welches die einfache Konfiguration einer Stimme per Prompt ermöglicht, können insbesondere Brands und Creator profitieren. Das neue Grok Studio ist derweil vor allem für kollaborative Erstellung gedacht. Für Aufsehen sorgte darüber hinaus auch OpenAI – Berichten zufolge arbeitet das Unternehmen an einem eigenen Social-Media-Projekt.