Η καλύτερη επίδειξη Gemini της Google ήταν ψεύτικη

By

Marizas Dimitris

On

Δεκ 8, 2023

Το νέο μοντέλο Gemini AI της Google τυγχάνει ανάμεικτης υποδοχής μετά το χθεσινό του ντ

εμπ

ούτο, αλλά οι χρήστες μπορεί να έχουν λιγότερη εμπιστοσύνη στην τεχνολογία ή την ακεραιότητα της εταιρείας αφού ανακάλυψαν ότι το πιο εντυπωσιακό demo του Gemini ήταν σχεδόν πλαστό.

Κάλεσε ένα βίντεο

“Hands-on with Gemini: Αλληλεπίδραση με πολυτροπικό AI”

πέτυχε ένα εκατομμύριο προβολές την τελευταία ημέρα και δεν είναι δύσκολο να καταλάβουμε γιατί. Η εντυπωσιακή επίδειξη «τονίζει μερικές από τις αγαπημένες μας αλληλεπιδράσεις με τους Gemini», δείχνοντας πώς το πολυτροπικό μοντέλο (δηλαδή, κατανοεί και συνδυάζει τη γλώσσα και την οπτική κατανόηση) μπορεί να είναι ευέλικτο και να ανταποκρίνεται σε

μι

α ποικιλία εισροών.

Αρχικά, αφηγείται ένα εξελισσόμενο σκίτσο μιας πάπιας από ένα squiggle σε ένα ολοκληρωμένο σχέδιο, το οποίο λέει ότι είναι ένα μη ρεαλιστικό χρώμα, και στη συνέχεια προκαλεί έκπληξη (“What the quack!”) όταν βλέπει ένα παιχνίδι μπλε πάπια. Στη συνέχεια, απαντά σε διάφορα φωνητικά ερωτήματα σχετικά με αυτό το παιχνίδι και, στη συνέχεια, η επίδειξη προχωρά σε άλλες κινήσεις επίδειξης, όπως η παρακολούθηση μιας μπάλας σε ένα παιχνίδι αλλαγής φλυτζανιών, η αναγνώριση χειρονομιών μαριονέτας σκιών, η αναδιάταξη σκίτσων πλανητών κ.λπ.

Επίσης, όλα ανταποκρίνονται πολύ, αν και το βίντεο προειδοποιεί ότι «η καθυστέρηση έχει μειωθεί και οι έξοδοι Gemini έχουν μειωθεί». Έτσι παραλείπουν έναν δισταγμό εδώ και μια υπερβολική απάντηση εκεί, το κατάλαβα. Συνολικά ήταν μια εντυπωσιακή επίδειξη δύναμης στον τομέα της πολυτροπικής κατανόησης. Ο δικός μου σκεπτικισμός ότι η Google θα μπορούσε να στείλει έναν υποψήφιο πήρε πλήγμα όταν παρακολούθησα το hands-on.

Μόνο ένα πρόβλημα: το βίντεο δεν είναι πραγματικό. “

Δημιουργήσαμε το demo καταγράφοντας πλάνα προκειμένου να δοκιμάσουμε τις δυνατότητες του Gemini σε ένα ευρύ φάσμα προκλήσεων. Στη συνέχεια, ζητήσαμε από το Gemini να χρησιμοποιήσει καρέ ακίνητων εικόνων από το υλικό και να ζητήσει μέσω κειμένου.

» (Η Parmy Olsen στο Bloomberg ήταν η

πρώτος να αναφέρει

η ασυμφωνία.)

Έτσι, παρόλο που θα μπορούσε να κάνει τα πράγματα που δείχνει η Google στο βίντεο, δεν τα έκανε, και ίσως δεν μπορούσε, να τα έκανε ζωντανά και με τον τρόπο που υπονοούσαν. Στην πραγματικότητα, ήταν μια σειρά προσεκτικά συντονισμένων μηνυμάτων κειμένου με ακίνητες εικόνες, σαφώς επιλεγμένες και συντομευμένες για να παραπλανήσουν πώς είναι στην πραγματικότητα η αλληλεπίδραση. Μπορείτε να δείτε μερικές από τις πραγματικές προτροπές και απαντήσεις στο

μια σχετική ανάρτηση ιστολογίου

— το οποίο, για να είμαστε δίκαιοι, συνδέεται στην περιγραφή του βίντεο, αν και κάτω από το «…περισσότερα».

Από τη μία πλευρά, ο Δίδυμος φαίνεται πραγματικά να έχει δημιουργήσει τις απαντήσεις που εμφανίζονται στο βίντεο.

Και

ποιος θέλει να δει κάποιες εντολές καθαριότητας, όπως να λέμε στο μοντέλο να ξεπλύνει την κρυφή του μνήμη; Αλλά οι θεατές παραπλανούνται σχετικά με την ταχύτητα, την ακρίβεια και τον θεμελιώδη τρόπο αλληλεπίδρασης με το μοντέλο.

Για παράδειγμα, στις 2:45 στο βίντεο, εμφανίζεται ένα χέρι να κάνει σιωπηλά μια σειρά από χειρονομίες. Ο Δίδυμος απαντά γρήγορα «Ξέρω τι κάνεις! Παίζεις Rock, Paper, Scissors!».

Συντελεστές εικόνας:

Google/YouTube

Αλλά το πρώτο πράγμα στην τεκμηρίωση της ικανότητας είναι πώς το μοντέλο δεν συλλογίζεται με βάση τη θέαση μεμονωμένων χειρονομιών. Πρέπει να εμφανίζονται και οι τρεις χειρονομίες ταυτόχρονα και να προτρέπεται: «Τι νομίζεις ότι κάνω; Υπόδειξη: είναι ένα παιχνίδι.” Απαντά: «Παίζεις ροκ, χαρτί, ψαλίδι».

Συντελεστές εικόνας:

Google

Παρά την ομοιότητα, αυτά δεν αισθάνονται σαν την ίδια αλληλεπίδραση. Αισθάνονται σαν θεμελιωδώς διαφορετικές αλληλεπιδράσεις, η μια μια διαισθητική, χωρίς λέξεις αξιολόγηση που αποτυπώνει μια αφηρημένη ιδέα εν κινήσει, μια άλλη μια μηχανική και έντονα υπονοούμενη αλληλεπίδραση που καταδεικνύει περιορισμούς όσο και δυνατότητες. Ο Δίδυμος έκανε το δεύτερο, όχι το πρώτο. Η «αλληλεπίδραση» που φαίνεται στο βίντεο δεν συνέβη.

Αργότερα, τρεις αυτοκόλλητες σημειώσεις με doodles του Ήλιου, του Κρόνου και της Γης τοποθετούνται στην επιφάνεια. «Είναι αυτή η σωστή σειρά;» Ο Δίδυμος λέει όχι, πάει Ήλιος, Γη, Κρόνος. Σωστός! Αλλά στην πραγματική (και πάλι γραπτή) προτροπή, το ερώτημα είναι «Είναι αυτή η σωστή σειρά; Σκεφτείτε την απόσταση από τον ήλιο και εξηγήστε το σκεπτικό σας».

Συντελεστές εικόνας:

Google

Ο Δίδυμος το κατάλαβε σωστά; Ή μήπως κατάλαβε λάθος και χρειάστηκε λίγη βοήθεια για να δώσει μια απάντηση που θα μπορούσαν να βάλουν σε ένα βίντεο; Αναγνώριζε καν τους πλανήτες ή χρειαζόταν βοήθεια και εκεί;

Στο βίντεο, μια μπάλα χαρτιού ανταλλάσσεται κάτω από ένα φλιτζάνι, το οποίο το μοντέλο εντοπίζει αμέσως και φαινομενικά διαισθητικά και παρακολουθεί. Στην ανάρτηση, όχι μόνο πρέπει να εξηγηθεί η δραστηριότητα, αλλά και το μοντέλο πρέπει να εκπαιδευτεί (αν είναι γρήγορα και χρησιμοποιεί φυσική γλώσσα) για να την εκτελέσει. Και ούτω καθεξής.

Αυτά τα παρα

δείγματα

μπορεί να σας φαίνονται ασήμαντα ή όχι. Εξάλλου, το να αναγνωρίζεις τόσο γρήγορα τις χειρονομίες ως παιχνίδι είναι πραγματικά εντυπωσιακό για ένα πολυτροπικό μοντέλο! Το ίδιο ισχύει και για το αν μια μισοτελειωμένη εικόνα είναι πάπια ή όχι! Αν και τώρα, καθώς η ανάρτηση του ιστολογίου στερείται εξήγησης για την ακολουθία της πάπιας, αρχίζω να αμφιβάλλω και για την ακρίβεια αυτής της αλληλεπίδρασης.

Τώρα, αν το βίντεο έλεγε στην αρχή, “Αυτή είναι μια στυλιζαρισμένη αναπαράσταση των αλληλεπιδράσεων που δοκίμασαν οι ερευνητές μας”, κανείς δεν θα έριχνε το μάτι — περιμένουμε κάπως τα βίντεο όπως αυτό να είναι μισά αληθινά, μισά φιλόδοξα.

Αλλά το βίντεο ονομάζεται “Hands-on with Gemini” και όταν λένε ότι δείχνει “τις αγαπημένες μας αλληλεπιδράσεις”, είναι σιωπηρό ότι οι αλληλεπιδράσεις που βλέπουμε είναι

εκείνοι

αλληλεπιδράσεις. Δεν ήταν. Μερικές φορές συμμετείχαν περισσότερο. Μερικές φορές ήταν τελείως διαφορετικά. μερικές φορές στην πραγματικότητα δεν φαίνεται να έχουν συμβεί καθόλου. Δεν μας λένε καν τι μοντέλο είναι — το Gemini Pro που μπορεί να χρησιμοποιήσει κάποιος τώρα ή (πιθανότατα) η έκδοση Ultra που πρόκειται να κυκλοφορήσει το επόμενο έτος;

Θα έπρεπε να υποθέσουμε ότι η Google μας έδινε μόνο ένα βίντεο γεύσης όταν το περιέγραψε με τον τρόπο που το έκαναν; Ίσως τότε θα έπρεπε να υποθέσουμε

όλα

Οι δυνατότητες στις επιδείξεις τεχνητής νοημοσύνης της Google είναι υπερβολικές για αποτέλεσμα. Γράφω στον τίτλο ότι αυτό το βίντεο ήταν “πλαστό”. Στην αρχή δεν ήμουν σίγουρος αν αυτή η σκληρή γλώσσα ήταν δικαιολογημένη (σίγουρα η Google δεν το κάνει· ένας εκπρόσωπος μου ζήτησε να την αλλάξω). Όμως, παρά το γεγονός ότι περιλαμβάνει ορισμένα πραγματικά μέρη, το βίντεο απλά δεν αντικατοπτρίζει την πραγματικότητα. Είναι ψεύτικο.

Η Google λέει ότι το βίντεο “εμφανίζει πραγματικά αποτελέσματα από τους Gemini”, πράγμα που είναι αλήθεια, και ότι “κάναμε μερικές αλλαγές στην επίδειξη (ήμασταν εκ των προτέρων και διαφανείς σχετικά με αυτό)”, κάτι που δεν είναι. Δεν είναι επίδειξη —όχι στην πραγματικότητα— και το βίντεο δείχνει πολύ διαφορετικές αλληλεπιδράσεις από αυτές που δημιουργήθηκαν για να το ενημερώσουν.

Εκσυγχρονίζω

: Σε ένα

ανάρτηση στα μέσα κοινωνικής δικτύωσης

Μετά τη δημοσίευση αυτού του άρθρου, ο αντιπρόεδρος έρευνας του Google DeepMind, Oriol Vinyals, έδειξε λίγο περισσότερο τον τρόπο με τον οποίο «χρησιμοποιήθηκε το Gemini για τη δημιουργία» του βίντεο. «Το βίντεο δείχνει τι βιώνει ο πολυτροπικός χρήστης που χτίστηκε με το Gemini

θα μπορούσε

μοιάζει. Το φτιάξαμε για να εμπνεύσουμε τους προγραμματιστές». (Η υπογράμμιση δική μου.) Είναι ενδιαφέρον ότι δείχνει μια αλληλουχία προτροπής που επιτρέπει στον Δίδυμο να απαντήσει στην ερώτηση των πλανητών χωρίς να υπαινίσσεται ο Ήλιος (αν και λέει στον Δίδυμο ότι είναι ειδικός στους πλανήτες και ότι εξετάζει τη σειρά των αντικειμένων που απεικονίζονται).

Ίσως θα φάω κοράκι όταν, την επόμενη εβδομάδα, το AI Studio με Gemini Pro είναι διαθέσιμο για πειραματισμό. Και το Gemini μπορεί κάλλιστα να εξελιχθεί σε μια ισχυρή πλατφόρμα AI που ανταγωνίζεται πραγματικά το OpenAI και άλλα. Αλλά αυτό που έκανε η Google εδώ είναι να δηλητηριάσει το πηγάδι. Πώς μπορεί κάποιος να εμπιστευτεί την εταιρεία όταν ισχυρίζεται ότι το μοντέλο του κάνει κάτι τώρα; Ήταν ήδη κουτσαίνοντας πίσω από τον ανταγωνισμό. Η Google μπορεί να πυροβολήθηκε στο άλλο πόδι.

VIA:

techcrunch.com

AI

gemini

google

Δίδυμοι

Η καλύτερη επίδειξη Gemini της Google ήταν ψεύτικη

Απάντηση Ακύρωση απάντησης

Απάντηση

Ακύρωση απάντησης