Ο YouTuber χρησιμοποιεί το GPT-4 για να κάνει την επίδειξη Gemini της Google σε πραγματικό χρόνο

By

Marizas Dimitris

On

Δεκ 12, 2023

Calvin Wankhede / Android Authority

TL;DR

Η Google κυκλοφόρησε ένα πρακτικό

βίντεο

που δείχνει τις δυνατότητες φωνητικής απόκρισης του

Gemini

σε «πραγματικό χρόνο».
Η Google παραδέχτηκε αργότερα ότι η επίδειξη βίντεο δεν έγινε σε πραγματικό χρόνο με προφορικά μηνύματα.
Ένας YouTuber χρησιμοποίησε το GPT-4

Vision

για να αναδημιουργήσει το demo Gemini και να το κάνει σε πραγματικό χρόνο.

Αφού η Google κυκλοφόρησε το εντυπωσιακό πρακτικό επίδειξης βίντεο Gemini, ανακαλύφθηκε ότι ήταν λίγο πολύ καλό για να είναι αληθινό. Αλλά τώρα κάποιος έχει ξαναδημιουργήσει αυτό το demo στο GPT-4 Vision, επιτυγχάνοντας αυτό που δεν μπορούσε να κάνει το Gemini στο βίντεό του.

Το

μοντέλο

μεγάλων γλωσσών Gemini (LLM) της Google είναι η πιο ισχυρή σουίτα μοντέλων τεχνητής νοημοσύνης της εταιρείας μέχρι σήμερα και η μεγαλύτερη βολή στην αρχιτεκτονική GPT-4 του OpenAI. Σε μια προσπάθεια να δείξει πόσο ικανό είναι το πολυτροπικό LLM της, η Google κυκλοφόρησε ένα πρακτικό βίντεο του Gemini που υποτίθεται ότι ανταποκρίνεται σε φωνητικές προτροπές σε πραγματικό χρόνο. Αρχικά, το demo ήταν αρκετά εντυπωσιακό, αλλά οι θεατές ανακάλυψαν τελικά μια δήλωση αποποίησης ευθύνης που έλεγε ότι ο λανθάνοντας χρόνος μειώθηκε και οι έξοδοι του Gemini συντομεύτηκαν για λόγους συντομίας.

Ενώ αυτά τα ζητήματα κάνουν την επίδειξη λίγο λιγότερο εντυπωσιακή, η συνειδητοποίηση ότι δεν ανταποκρινόταν στην ομιλία σε πραγματικό χρόνο, όπως είπε η Google, τη μετέτρεψε σε μια πραγματική στιγμή για την εταιρεία. . Η Google παραδέχτηκε

Bloomberg

ότι ο Gemini δεν ανταποκρινόταν σε φωνητικές προτροπές σε πραγματικό χρόνο, αλλά ανταποκρινόταν σε μηνύματα κειμένου. Για να αντιμετωπίσει την κριτική, ο Δίδυμος συνηγορεί

Oriol Vinyals

αργότερα εξήγησε ότι το Gemini έχει όλες τις δυνατότητες που απαιτούνται για αυτή τη λειτουργία, αλλά το βίντεο είχε σκοπό να δείξει πώς θα μπορούσαν να μοιάζουν οι πολυτροπικές εμπειρίες χρηστών που δημιουργήθηκαν με το Gemini.

Ενώ η ζημιά έχει γίνει, φαίνεται ότι ένας YouTuber έχει προσθέσει μια μικρή προσβολή στον τραυματισμό. Το κανάλι του YouTube Greg Technology δημοσίευσε ένα βίντεο όπου το demo του Gemini αναδημιουργήθηκε στο GPT-4 Vision. Σε αντίθεση με το πρακτικό βίντεο της Google, αυτό το βίντεο έγινε στην πραγματικότητα σε πραγματικό χρόνο με φωνητικές προτροπές.

Στο βίντεο, το GPT-4 καλείται να αναγνωρίσει τα σημάδια των χεριών, να αναγνωρίσει ένα παιχνίδι που έπαιζε ο οικοδεσπότης με τα χέρια του και να αναγνωρίσει ένα σχέδιο. Αν και

δεν είναι

τόσο γυαλισμένο ή τόσο γρήγορο όσο αυτό που παρουσιάστηκε στην επίδειξη του Gemini, ανταποκρίνεται σε πραγματικό χρόνο.

VIA:

AndroidAuthority.com

Παρόμοια άρθρα