Η Google παρουσιάζει το Genie: Η νέα εποχή της εικονικής πραγματικότητας
Οι ερευνητές της
Google
δημοσίευσαν ένα νέο μοντέλο τεχνητής νοημοσύνης που μπορεί να λάβει ένα μήνυμα κειμένου, ένα σκίτσο ή
μι
α ιδέα και να το μετατρέψει σε έναν εικονικό κόσμο με τον οποίο μπορείτε να αλληλεπιδράσετε και να παίξετε.
Ονομάστηκε
Τζίνι
, το μοντέλο εικονικού κόσμου εκπαιδεύτηκε στο gameplay και άλλα βίντεο που βρέθηκαν στο διαδίκτυο και προς το παρόν είναι μόνο μια προεπισκόπηση έρευνας. Τα παιχνίδια είναι περισσότερο 2D platformer παρά πλήρες VR.
Αν και αυτό μπορεί να απέχει πολύ από ένα αληθινό holodeck όπως αυτά στο Star Trek, δίνει μια ένδειξη ότι θα μπορούσε μια μέρα να μπείτε σε ένα δωμάτιο και να δημιουργήσετε μια πλήρως διαδραστική περιπέτεια με τίποτα περισσότερο από λίγες λέξεις.
Τι είναι το Google Genie;
(Πίστωση εικόνας: Google Genie)
Στον κόσμο της τεχνητής νοημοσύνης, οι άνθρωποι μιλούν για το άνοιγμα του Κουτιού της Πανδώρας ή για να αφήσουν το τζίνι να βγει από τη λάμπα για να περιγράψουν την πραγματικότητα της δυνατότητας δημιουργίας περιεχομένου με σχετικά μικρή προσπάθεια. Η πραγματικότητα είναι ότι, όπως ένας άνθρωπος ξοδεύει χρόνια μαθαίνοντας μια δεξιότητα, τα μοντέλα τεχνητής νοημοσύνης απαιτούν εκτενή εκπαίδευση.
Δεν μπορείς απλά να τρίβεις μια λάμπα και να ελπίζεις ότι θα βγει ένα τζίνι, πρώτα πρέπει να γεμίσεις τη λάμπα με γνώση και ικανότητα. Στην περίπτωση του Genie που προήλθε από ένα «μεγάλο σύνολο δεδομένων από δημόσια διαθέσιμα βίντεο στο Διαδίκτυο» και πολλή προσπάθεια από τους μηχανικούς να δημιουργήσουν κώδικα και βάρη για το μοντέλο.
Επικεφαλής της ομάδας Google DeepMind για Genie, Tim Rocktäschel,
έγραψε στο Χ
ότι η ομάδα εστίασε στην κλίμακα, χρησιμοποιώντας ένα σύνολο δεδομένων που αποτελείται από περισσότερες από 200.000 ώρες βίντεο από 2D platformers.
Εκπαιδεύτηκε χωρίς επίβλεψη και χρησιμοποιώντας βίντεο χωρίς ετικέτα. Αυτό του επέτρεψε να μάθει ένα διαφορετικό εύρος κίνησης, ελέγχου και δράσης χαρακτήρων και να το κάνει με συνεπή τρόπο. Ως αποτέλεσμα, “το μοντέλο μας μπορεί να μετατρέψει οποιαδήποτε εικόνα σε έναν δισδιάστατο κόσμο με δυνατότητα αναπαραγωγής”, εξήγησε ο Rocktäschel.
Τι πραγματικά σημαίνει αυτό;
Υπάρχουν πολλά εργαλεία στην αγορά που μπορούν να πάρουν την μακέτα ενός γραφίστα ενός ιστότοπου ή μιας εφαρμογής και να τα μετατρέψουν σε κώδικα.
Δεν είναι πάντα ο καλύτερος κώδικας, αλλά δημιουργεί ένα λειτουργικό πρωτότυπο που μπορεί να χρησιμοποιηθεί. Υπάρχουν επίσης εργαλεία τεχνητής νοημοσύνης για τη δημιουργία ιστότοπου από μια προτροπή κειμένου.
Με το Genie μπορείτε βασικά να του δώσετε ένα σκίτσο σε ένα κομμάτι χαρτί, ένα τέλεια κατασκευασμένο κομμάτι ψηφιακής τέχνης ή ακόμα και μια απεικόνιση ενός δισδιάστατου κόσμου που δημιουργείται από AI και το Genie κάνει τα υπόλοιπα.
Είμαι πραγματικά ενθουσιασμένος που αποκαλύπτω τι έχει κάνει η Ομάδα Open Endedness του @GoogleDeepMind 🚀. Παρουσιάζουμε το Genie 🧞, ένα βασικό παγκόσμιο μοντέλο που εκπαιδεύεται αποκλειστικά από βίντεο στο Διαδίκτυο που μπορεί να δημιουργήσει μια ατελείωτη ποικιλία δισδιάστατων κόσμων ελεγχόμενων από τη δράση, με προτροπές εικόνας. pic.twitter.com/TnQ8uv81wc
26 Φεβρουαρίου 2024
Δημιουργεί όλους τους απαραίτητους κώδικα, εικόνες και άλλα στοιχεία για να μετατρέψει το σκίτσο σας σε ένα παιχνίδι που μπορεί να παίξει πλήρως με έναν ανοιχτό κόσμο που προσαρμόζεται στο παιχνίδι.
Οι δημιουργοί χρησιμοποίησαν ένα tokenizer που συμπίεσε το βίντεο σε διακριτά διακριτικά. Στη συνέχεια αποστέλλεται σε ένα μοντέλο δράσης για να κωδικοποιήσει τις μεταβάσεις μεταξύ δύο πλαισίων ως μία από τις οκτώ λανθάνουσες ενέργειες. Στη συνέχεια χρησιμοποιείται ένα άλλο μοντέλο για την πρόβλεψη μελλοντικών καρέ.
Η λύση για να τα συγκεντρώσει όλα ήταν η ίδια με την σημαντική ανακάλυψη που είχε το OpenAI με το Sora — πολλά δεδομένα και εξίσου μεγάλη υπο
λογιστική
ισχύ.
Τι θα γίνει μετά με την Τζίνι;
(Πίστωση εικόνας: Google Genie)
Το
Genie δεν έχει ημερομηνία κυκλοφορίας και ως ερευνητικό έργο δεν είναι ξεκάθαρο αν θα γίνει ποτέ πραγματικό προϊόν. Υπάρχει πιθανότητα μια μέρα να μπορέσετε να σηκώσετε ένα από τα καλύτερα τηλέφωνα Android και να ζητήσετε από τον Βοηθό να σας φτιάξει ένα παιχνίδι για την αποφυγή βρικόλακων — αλλά όχι για μερικά χρόνια.
Αυτό που είναι πιο σημαντικό είναι η υποκείμενη τεχνολογία και οι νέες προσεγγίσεις για τη δημιουργία περιεχομένου που αναπτύχθηκαν κατά τη δημιουργία του, συμπεριλαμβανομένης της
μάθηση
ς χωρίς ετικέτα που οδηγεί σε ανοιχτούς κόσμους.
Ο Rocktäschel φώναξε τον Sora στο X, συγκεκριμένα την ιδέα ότι είναι ένα «παγκόσμιο μοντέλο». Είπε ότι ενώ είναι εντυπωσιακό και οπτικά εντυπωσιακό «ένα παγκόσμιο μοντέλο χρειάζεται «δράσεις». Προσθέτοντας ότι «Το Genie είναι ένα παγκόσμιο μοντέλο ελεγχόμενο από τη δράση, αλλά εκπαιδευμένο πλήρως χωρίς επίβλεψη από βίντεο».
Η άλλη μεγάλη ανακάλυψη που ήρθε με το Genie είναι η βαθύτερη κατανόηση της φυσικής του πραγματικού κόσμου, η οποία θα μπορούσε να χρησιμοποιηθεί στην εκπαίδευση ρομπότ για την πιο αποτελεσματική πλοήγηση σε περιβάλλοντα ή για την ολοκλήρωση εργασιών που δεν είναι στην εκπαίδευσή τους.
Περισσότερα από το Tom’s Guide
VIA:
TomsGuide.com

