Google Gemini – AI model koji obećava
Google je 6. decembra 2023. godine najavio Gemini, novi veliki multimodalni model (LMM) koji radi sa tekstom, slikama i zvukom, dok su tekstualne sposobnosti Gemini-a istog dana uvedene u Google-ov Bard. Pritom je i najavljeno da će multimodalnost predstavljena sa Gemini-em uskoro postati sastavni deo Bard-a Već 13. decembra, Google je objavio API za Gemini-a, omogućavajući vam da integrišete Gemini-ev model direktno u svoje aplikacije.
S obzirom da je i nas zainterigiralo šta nam to sve donosi ovaj novi AI model, u ovom tekstu predstavićemo Google-ov Gemini i pokazati kako se on ponaša u ovoj početnoj fazi, u kojoj smo ga i mi testirali. Ukoliko vas zanima kako smo testirali ChatGPT pročitajte naš tekst na blogu pod nazivom ChatGPT – da li je posao developera ugrožen?
Ukoliko vas zanima kako je izgledalo predstavljanje Gemini-a od strane Google-a, pogledajte zvanični video sa predstavljanja.
Šta je Gemini?
Gemini je veliki multimodalni model (LMM) razvijen od strane Google-a. Kao što verovatno već znate, LMM-ovi su veliki jezički modeli koji mogu raditi sa više „modaliteta“ od teksta. To znači da Gemini može odgovarati na pitanja u vezi sa tekstom, slikama i zvukom.
Gemini je lansiran uz film koji demonstrira neke od prilično fascinantnih mogućnosti ovog modela. Na primer, prikazuju Gemini kako piše kod, objašnjava matematičke probleme, pronalazi sličnosti između dve slike, pretvara slike u kod, razume „neobične“ emotikone i još mnogo toga.
Naravno, sve je ovo propraćeno dobrim marketinškim predstavljanjem, pa je Google čak bio i kritikovan da je pomalo preuveličao mogućnosti svog modela, u smislu načina na koji je predstavljeno da on radi. Paralelno sa tim pojavili su se i komentari o tome u kojoj meri je jedna ili više demonstracija bila montirana.
Mi nimalo ne sumnjamo da je Gemini model u samom vrhu sadašnje LMM tehnologije, ali nismo ni skloni da odmah podlegnemo uticaju pompe koja se stvorila oko toga. Radije volimo da pustimo da se prašina malo slegne, a da mi za to vreme sami testiramo ono što je trenutno dostupno od verzije ovog modela.
Gemini ima tri verzije, dizajnirane za različite svrhe:
- Ultra: Najveći model, koristan za obavljanje složenih zadataka.
- Pro: Model koji se može skalirati na različite zadatke.
- Nano: Model za korišćenje na vašim uređajima (npr. na mobilnim telefonima).
Ograničena verzija tekstualnih sposobnosti Gemini-a dostupna je u Bardu u trenutku pisanja ovog teksta.
Prema rečima Google-a, Ultra model, koji je inače trenutno nedostupan, „prevazilazi aktuelne rezultate istraživanja i razvoja na 30 od 32 široko korišćenih akademskih benchmarka u oblasti velikih jezičkih modela (LLM)“. Ipak, mi nismo bili u mogućnosti da testiramo Ultra model u trenutku pisanja ovog članka.
Iako to možda niste znali, Gemini je samo jedan od mnogih LMM-ova dostupnih danas. GPT-4 je lansiran u septembru 2023. godine. Od tada su lansirani i drugi modeli otvorenog koda, uključujući LLaVA, BakLLaVA i CogVLM. Dakle, trenutno imate dovoljno opcija ako želite da integrišete multimodalne modele u svoje aplikacije.
Ono što razlikuje Gemini od prethodnih generativnih modela veštačke inteligencije poput LaMDA-e jeste to što je „multi-modalni model“. Ovo znači da direktno radi sa više vrsta ulaznih i izlaznih podataka: osim podrške za tekstualne ulaze i izlaze, podržava i slike, zvuk i video. Shodno tome, počinje da se koristi novi akronim: LMM (veliki multimodalni model) i ne treba ga mešati sa LLM (Large Language Model) na kojem je zasnovan ChatGPT.
Šta smo testirali?
S obzirom da je Google i sam stavio akcenat na sposobnosti njihovog LMM modela za rad sa medijskim sadržajima, prvenstveno smo želeli da testiramo kako radi upravo to što je Google želeo da istakne kod Gemini-a.
U tu svrhu smo Gemini-u predstavili nekoliko slika i video zapisa i zatražili da uradi nešto što smo želeli sa njima. Uglavnom je to bio zahtev da prepozna šta je na slici ili da pročita deo sadržaja na slici. Za rezultate test pogledajte nešto niže u sadržaju ispod naslova Test Gemini-a.
Kako da pokrenete Gemini
Gemini možete pokrenuti pomoću Google Cloud Vertex AI Multimodal playground-a. Ovaj playground nudi web interfejs pomoću kojeg možete ostvariti interakciju sa Gemini Pro Vision, koja inače podržava postavljanje pitanja o slikama. Kada se nađete na stranici Vertex AI Multimodal playground-a kliknite samo na opciju Open, da bi vam se otvorila stranica sa promt poljem.
Naravno, pre testiranja biće potrebno da preko svog Google omogućite Gemini API Ukoliko želite da saznate više o Gemini API-ju, dokumentaciju možete pronaći ovde.
Google API aktivirate, kako smo već rekli, preko svog Google Cloud naloga. U sekciji API / API & Services pronađite listu Google API-ja koji su vam trenutno aktivni.
Ukoliko među njima ne pronalazite Vertex AI API potrebno je da ga omogućite/aktivirate.
Da biste ga aktivirali u gornjem delu prozora pronađite sekciju pod nazivom + ENABLE APIS AND SERVICES.
Kliknite na taj link i otvoriće vam se API biblioteka u kojoj sada možete da pronađete i aktivirate Vertex AI.
Sada u polje za pretragu unesite Vertex AI i kliknite na enter. Otvoriće vam se sledeći prozor sa spiskom pronađenih API-ja.
Prvi sa spiska pod nazivom Vertex AI API je onaj koji vam je potreban.
Kliknite na njega i otvoriće vam se prozor na kojem možete da omogućite ovaj API.
Ukoliko ste ga kao mi već aktivirali, onda bi trebalo da vidite iste opcije kao na slici ispod.
Nakon aktivacije idite na već pomenuti Playground gde ćete moći da obavite testiranje.
Imajte samo u vidu da je potrebno da za ovu namenu odaberete neki projekat za koji ćete vezati ovaj API, odnosno testiranje. Ukoliko već imate otvorene projekte na Google Cloud-u, onda slobodno možete povezati vaš postoječi projekat sa Vertex-om i tako testirati.
Naravno, korišćenje Vertex API-ja će vas koštati, ali se cena ne razlikuje puno od cene ostalih Google API-ja. Za detaljne cene pogledajte Google-ov cenovnik za korišćenje Vertex API-ja.
Test Gemini-a
Ali bilo je dosta priče – vreme je da vas upoznamo sa rezultatima našeg testa. Da se odmah razumemo, nismo obavljali nikakve fensi naučne testove niti radili banchmark testove. Čak nismo ni menjali default-na podešavanja, osim što smo po preporuci Google-a povećali preciznost odgovora (tzv temperaturu – kako Google zove ovaj parametar) i smanjili ga sa 0.4 na 0.2. Da dobro ste razumeli povećali smo preciznost tako što smo smanjili vrednost :-). Ova opcija se nalazi odmah desno od promt polja, pa možete i samo da se igrate sa njom, ukoliko želite.
Sve što smo u ovom testu radili jeste ono što većini prosečnih korisnika može biti potrebno u svakodnevnom obavljanju poslova. Dakle, prepoznavanje slika, prepoznavanje ispisa na slikama, prepoznavanje oblika i sl. Davali smo mu jednostavne zadatke, koje bi ovaj model po svim najavam trebalo lako da reši.
Da ne dužimo – evo i nekih konkretnih primera i rezultata.
Test prepoznavanja fotografije
Prvi test koji smo radili je trebalo da pokaže da li je Gemini u mogućnosti da prepozna šta se nalazi na fotografiji. Izabrali smo fotografiju italijanskog grada Riminija.
Ono što je bitno da znate ukoliko i sami poželite da testirate Gemini, je to da trenutno podržava samo JPG i PNG formate.
Prvo pitanje smo postavili na engleskom jeziku: Gde je ovo fotografisano?
Gemini je odmah dao tačan odgovor.
Bravo za Gemini – idemo dalje!
Kako sam Google navodi Gemini je sposoban da prima upite na velikom broju jezika. Zato smo sledeći postavili upit na srpskom jeziku. Ovog puta smo hteli da testiramo njegovu sposobnost da prepozna neke karakteristike osobe sa slike.
Gemini se očigledno dobro snašao sa i sa ovim zadatkom, ali i sa našim jezikom i odmah dao tačan odgovor.
Doduše, dao je neki osnovni opis osobe na slici, ali za početak smatramo da je i to sasvim dovoljno.
Za sledeći test prepoznavanja fotografije odabrali smo irski grad Dablin. Ovog puta smo ipak hteli da postavimo neko drugačije pitanje i proverimo kako Gemini prepoznaje detalje na slici. Odabrali smo fotografiju jedne od ulica u Dablinu u kojoj se nalazi nekoliko velikih reklama. Ovog puta smo od Gemini-a tražili da nam prepozna šta piše na jednoj vertikalnih reklama. ružičaste boje. Na reklami je inače napisano Cloud Nine.
I ovog puta Gemini je bio na visini zadatka.
Nismo mogli da odolimo da mu ponovo ne postavimo pitanje koji je grad u pitanju:
Odgovor je i ovog puta bio tačan, iako se na slici vidi samo jedna mala ulica u Dablinu, a ne ceo pejzaž grada.
I sledeći upit je vezan za raspoznavanje objekta na fotografiji. Ovog puta smo dali Gemini-u zadatak da prepozna objekat na slici. U pitanju je Berninijeva skulptura Apolona i Dafne.
I ovog puta smo dobili tačan odgovor.
Doduše, delimično tačan jer kako smo primetili u nastavku testiranja, Gemini još uvek ne radi savršeno. U nekim situacijama se dešavalo da izostavi deo rečenice, kao u ovom slučaju, jer je očigledno hteo da napiše gde se ova skulptura nalazi, ali je to jednostavno izostavio.
Takođe, primetili smo da su za sada Gemini-evi odgovori previše veštački sklopljeni. To se najbolje vidi na primeru iz rečenice sa slike iznad. Verujemo da su to samo dečije bolesti, ali za sada neke rečenice deluju pomalo nepovezano.
Pošto u prethodnom odgovoru nismo saznali ko je autor te skulpture (što je po nama bilo važnije od ostalih podataka koje je nekako nevešto nabacao), tražili smo od Gemini-a da nam odgovori i na to pitanje.
Dobili smo tačan odgovor, ali na nekoj čudnoj mešavini jezika naroda i narodnosti bivše SFRJ
U finalu testiranja prepoznavanja fotografija, rešili smo da Gemini-u zadamo jedan zadatak iz istorije. Pitali smo ga ko je fotografiji ove skultpture. U pitanju je inače rimski car Domicijan.
Ovog puta smo dobili potpuno pogrešan odgovor.
Da se razumemo, jeste Gaj Julije Cezar bio rimski vojskovođa i političar, ali nije on prikazan na slici
Prepoznavanje i brojanje predmeta na fotografiji
Sledeće što smo hteli da testiramo jeste da li Gemini može da prepozna i izbroji predmete na fotografiji. Pitali smo ga da nam kaže prvo šta se nalazi na fotografiji. U pitanju su biseri, od kojih je jedan nepravilnog, dok su ostali pravilnog oblika.
Ovog puta dobili smo tačan odgovor.
Zatim smo mu dali upit da nam odgovori koliko je tačno predmeta na toj fotografiji. Bisera je inače ukupno 8. Namerno nismo hteli da ga pitamo koliko je bisera na fotografiji, da ga ne bismo zbunili zbog nepravilnog oblika jednog od njih.
Nažalost, ovog puta smo dobili pogrešan odgovor.
Probali smo da ponovimo pitanje, ali smo dobili ponovo netačan odgovor – 7. Ne znamo da li je na ovaj netačan odgovor uticalo to što je zapravo 7 bisera pravilnog oblika, a 1 nepravilnog, ali je odgovor svakako bio pogrešan.
Sledeće pitanje se odnosilo na prepoznavanje objekta na slici. Postavili smo pitanje šta je na slici. U pitanju je fotografija parobroda.
Odgovor je bio delimično tačan, odnosno manje-više uopšten.
Doduše, mi nismo ni tražili da napiše nešto preciznije od toga, pa ne možemo ni da smatramo da je odgovor problematičan.
Da bismo proverili da li zna o kojoj vrsti broda se radi, postavili smo mu još jedno pitanje: Koji je brod na slici?
Ovog puta smo dobili sasvim precizan odgovor.
Sposobnost odgovora na tekstualne upite
Ono što nam je nedostajalo kod ChatGPT-a je sve što smo do sada videli da ne nedostaje kod Gemini-a. To je sposobnost da prepoznaje slike i predmete na njima. A da li je Gemini sposoban da daje smislene i složene odgovore na tekstualne upite? Navikli smo da ChatGPT to radi prilično dobro, pa da vidimo da Gemini može da mu parira u tome.
Postavili smo mu jednostavno pitanje da nam napiše sve što zna o Juliju Cezaru.
Odmah smo dobili i odgovor, ali nas je on prilično razočarao količinom i načinom predstavljanja podataka.
Osim što ovakav odgovor više liči na puškice iz istorije nekog srednjoškolca, pritom je i daleko od onoga što smo tražili, a to je “sve što znaš….”. Čisto radi poređenja smo isto pitanje postavili i ChatGPT-u i dobili daleko smisleniji i upotrebljiviji odgovor:
Pritom napominjemo da smo koristili besplatnu verziju ChatGPT-a 3.5.
Dakle, ovde možemo da zaključimo da je Gemini u svojoj trenutnoj verziji još dosta daleko od davanja odgovora na tekstualne upite.
Da budemo potpuno pošteni prema Gemini-u, nakon ovoga nismo detaljnije ni testirali tekstualne upite, pa možda postoje i drugačiji rezultati od ovih koje smo mi dobili.
Prepoznavanje videa
Sledeće što smo testirali je kako Gemini prepoznaje šta se nalazi na video snimku.
Ono što je bitno da znate ukoliko budete i sami poželeli da testirate video jeste da Gemini trenutno prihvata samo MKV, MOV, MP4 i WEBM formate i to maksimalne veličine do 10 MB.
Takođe, može da analizira samo do 2 minuta videa, a čitanje tog videa će raditi tako što će zapravo sebi kreirati set nepovezanih frejmova koje je uzeo iz upload-ovanog video snimka.
Za potrebe testa upload-ovali smo mu jedan kratki kulinarski video na kojem se vidi drvena daska sa začinskim biljkama timijanom i ruzmarinom na njoj i pitali Gemini šta se nalazi na tom video snimku.
Ovog puta smo dobili tačan i veoma detaljan odgovor.
Prepoznavanje teksta sa slike
Na kraju ovog testiranja hteli smo da vidimo koliko tačno Gemini može da čita slova sa slike, odnosno kakve su mu OCR sposobnosti.
Prvi test je bio da prepozna račličite karaktere nekog nasumično generisanog password-a. Uključili smo što više različitih karaktera veće dužine, da bismo proverili da li će svaki uspeti da reprodukuje tačno.
Da biste bolje videli, ovde prenosimo sliku onakvu kakvu smo upload-ovali na Gemini playground.
Dobili smo tačno reprodukovan (očitan) svaki karakter, uz jednu manju grešku u vidu razmaka posle broja 1.
To nije bio slučaj kada smo mu dali da nam prepozna Capha karaktere, koje uobičajeno viđamo na sajtovima koji traže capcha verifikaciju.
Na naš upit da nam prepozna karaktere sa slike ispod
dobili smo prilično netačne odgovore:
Dobro, činjenica je da captcha tekst nije lako prepoznati, ali smo i pored toga sigurni da će Gemini u nekoj narednoj verziji moći lakše da izađe na kraj sa ovim zadatkom.
Zaključak
Ovim bismo i završili naš kratki test ove verzije Google Gemini-a, uz zaključak da se bez sumnje radi o LMM modelu koji predstavlja nešto drugačiji pristup od do sada viđenih modela i da nagoveštava značajnu promenu u pravcu daljeg razvoja AI tehnologije.
Da li će i koliko brzo postati primenjiv i u našim svakodnevnim životima, zavisi pre svega od toga da li će Google ponuditi kao finalni proizvod za krajnjeg korisnika, odnosno kao neku nadograđenu verziju Bard-a, ili će umesto toga pokušati da se nametne kao AI rešenje za industrijske proizvode, što bi takođe mogla da bude zanimljiva strategija.
U svakom slučaju ostaje da pratimo razvoj situacije i nastavimo da testiramo neke naredne verzije ovog, bez sumnje AI modela koji obećava.