Sprawdziłem Gemini Live po polsku. Liczyłem na więcej
Stało się coś dziwnego. Po raz pierwszy od dawna AI wywołało we mnie ekscytację. Połączoną ze strachem co prawda, ale i tak się liczy. Wszystko przez premierę Gemini Live, nowego asystenta Google przybliżającego „zwykłego Kowalskiego” do wizji prezentowanych dotychczas w filmach z serii Iron Man. Niestety, słowo klucz to „wizja”, gdyż obecna użyteczność aplikacji wydaje […] Artykuł Sprawdziłem Gemini Live po polsku. Liczyłem na więcej pochodzi z serwisu ANDROID.COM.PL - społeczność entuzjastów technologii.


Stało się coś dziwnego. Po raz pierwszy od dawna AI wywołało we mnie ekscytację. Połączoną ze strachem co prawda, ale i tak się liczy. Wszystko przez premierę Gemini Live, nowego asystenta Google przybliżającego „zwykłego Kowalskiego” do wizji prezentowanych dotychczas w filmach z serii Iron Man. Niestety, słowo klucz to „wizja”, gdyż obecna użyteczność aplikacji wydaje się znikoma.
Szybka powtórka, czyli jak Gemini Live właściwie działa?
Z Gemini Live użytkownik smartfona może korzystać na trzy proste sposoby. Pod warunkiem że korzysta z systemu Android 10 wzwyż lub iOS 16, jeżeli uruchamia aplikację na sprzęcie Apple.
- kamera + dźwięk – aplikacja „widzi” obraz z kamery i reaguje na dźwiękowe zapytania użytkownika;
- dźwięk – aplikacja nic nie widzi i odpowiada na dźwiękowe zapytania użytkownika;
- nagrywanie ekranu – aplikacja widzi ekran smartfona, przez co możemy zadawać pytania o treści znajdujące się na nim;
Muszę dodać, że do tej pory nie udało mi się wymusić sytuacji, w której Gemini Live widziałoby obraz z kamery mojego telefonu.
Szybkie obserwacje po sprawdzeniu Gemini Live
Mając podstawowe pojęcie na temat sposobu działania aplikacji, mogę przejść do pierwszych obserwacji. Dodam, że AI świetnie rozpoznaje język polski, więc komunikacja na żadnym etapie nie sprawiała problemów.
1. Gemini Live nie łączy się z internetem
To chyba największy zawód, jeśli w ciągu pierwszej godziny użytkowania Gemini Live oczekiwalibyśmy efektu „wow”. Przykładowo, poprosiłem aplikację o przekazanie mi specyfikacji mojego roboczego laptopa, na podstawie jego sylwetki. Nawet zbliżona „wymienianka”, czyli lista, byłaby tu zadowalająca, ale na to nie mogłem liczyć.
Program ograniczył się do podania nazwy urządzenia oraz wywnioskował po naklejkach, że ma on układ GeForce RTX i procesor Intel Core i5. Oczywiście, użytkownik może samodzielnie dokarmiać AI brakującymi informacjami, ale dlaczego też mamy robić beta–testy za darmo, prawda?
2. Gemini Live na ogół dobrze rozpoznaje kolory
Mam w pokoju skromną kolekcję kontrolerów DualSense, która idealnie nadawała się do przetestowania możliwości rozpoznawania kolorów. Poprosiłem AI, żeby podała kolory każdego z poniżej widocznych 4 padów.
Od lewej w dół, według AI: czerwony, niebieski, biały i biały. Tak wyglądała pierwsza odpowiedź Gemini Live. Poprawiłem sztuczną inteligencję, a następnie zapytałem dwie godziny później o to samo. Usłyszałem już prawidłowe odpowiedzi: fioletowy, niebiesko–zielony, szary i białoniebieski.
Zaintrygowany poprawą, zrobiłem przebieżkę po salonie i odpytywałem AI jak małe dziecko o kolory różnych rzeczy. Opakowania batoników rzeczywiście są brązowe, a czerwień dominuje na pomidorowej instant. Pomimo braku dostępu do sieci, AI rozpoznała nawet moją figurkę Crasha Bandicoota, mimo iż zapytałem wyłącznie o jej kolor.
3. Gemini Live czyta wręcz bezbłędnie, także wewnątrz aplikacji
Podobne zapytanie o kolor wprowadziłem przy jednym z leżących obok musów śniadaniowych, a Gemini Live w gratisie odczytało mi smak potrawy oraz nazwę producenta. Powinienem zdać sobie z tego sprawę już przy badaniu laptopa, ale tak, nowy asystent nie ma problemów z przetwarzaniem tekstu.
Bardziej przeraża jednak umiejętność czytania tego, co dzieje się w naszych aplikacjach. Gemini nie widzi jednak „całej” aplikacji, nie potrafi wciskać samodzielnie przycisków i wykonywać interakcji. Widzi tylko to, co jest w danym momencie na ekranie. Dlatego też, gdy poprosiłem o odczyt brakujących trofeów w Forza Horizon 5, aplikacja podała mi tylko te, które pokazywane były na ekranie.
Jednak szybko zacząłem się zastanawiać: a co jeśli Gemini Live widzi aplikacje bankowe? Asystent nie komunikuje użytkownikowi bezpośrednio tego, do czego ma dostęp. Dopiero gdy otworzyłem swoją aplikację bankową, po kilku próbach odczytu danych Gemini „wygadał się”, że widzi czarny ekran.
Na szczęście zasada jest prosta. Jeżeli aplikacja ma systemową blokadę na zrzuty ekranu (np. aplikacje bankowe, mObywatel), to Gemini Live także jej nie widzi. Co innego Revolut, który takiej blokady nie ma…
Szybkie testy to jedno. Jak używać Gemini Live praktycznie?
Tego… jeszcze nie wiem. Nawet myślami chodząc po galerii handlowej lub miejskich przestrzeniach, nie potrafię wyobrazić sobie scenariusza, w którym korzystając z Gemini Live, nie czuję się skołowany. Pojawia się przecież tyle pytań, także natury prawnej, że głowa mała.
- Czy inne osoby w przestrzeni publicznej wyrażają zgodę na to, abym przez nawet sekundę złapał ich w kadrze rozpatrywanym przez AI? Raczej nie.
- Czy sztuczna inteligencja zapamięta położenie przedmiotów w moim pokoju? Też nie, to nie robot sprzątający. Po zakończonej sesji pamięć się skasuje.
Najlepsze scenariusze pisze jednak proza życia, dlatego dam Gemini Live szansę na naturalne „rozgoszczenie” się w moim świecie. Niezależnie od tego, jakie będą efekty tego eksperymentu, z pewnością wrócę do was z hurraoptymistycznym, sceptycznym lub negatywnym materiałem.
Źródło: oprac. własne, Zdjęcie otwierające: Krzysztof Wilamowski / Android.com.pl
Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.
Artykuł Sprawdziłem Gemini Live po polsku. Liczyłem na więcej pochodzi z serwisu ANDROID.COM.PL - społeczność entuzjastów technologii.