Google Genie: Μια νέα τεχνολογία αναζήτησης και εξυπηρέτησης: Οδηγίες λειτουργίας και χρήσης



Ετοιμαστείτε να μπείτε σε έναν κόσμο καθαρής φαντασίας, γιατί το Google Genie έφτασε για να κάνει τα όνειρά σας εικονική πραγματικότητα!

Την περασμένη εβδομάδα, το OpenAI μας γοήτευσε όλους με το προηγμένο εργαλείο δημιουργίας βίντεο, το Sora AI, και τώρα το πρωτοποριακό μοντέλο

ητής νοημοσύνης της Google μετατρέπει απλές εικόνες σε εικονικά περιβάλλοντα με δυνατότητα αναπαραγωγής.

Ναι, τώρα μπορείτε να δημιουργήσετε ένα

ολόκληρο το παιχνίδι 2D platformer

με μια κίνηση του καρπού σας (ή ένα άγγιγμα του πληκτρολογίου σας, τουλάχιστον).


Tim Rocktäschel

Αρχηγός Ομάδας Ανοιχτού Τέλους στο

Google Deep Mind

ανακοίνωσε τη

του Google Genie στο X με τα εξής λόγια:

Τι είναι το Google Genie;

Ο παραδοσιακός σχεδιασμός παιχνιδιών απαιτεί συχνά σύνθετες δεξιότητες κωδικοποίησης. Με το Google Genie, τα τεχνικά εμπόδια μειώνονται σημαντικά. Το AI χειρίζεται τις περίπλοκες διαδικασίες μετατροπής της ιδέας σας σε ένα εικονικό περιβάλλον με δυνατότητα αναπαραγωγής, επιτρέποντάς σας να εστιάσετε στην καθαρή χαρά της δημιουργίας.

Το Google Genie βρίσκεται στην πρώτη γραμμή της τεχνολογίας AI, ταξινομημένο ως “

θεμελιώδες παγκόσμιο μοντέλο

“.

Αυτό σημαίνει ότι έχει εκπαιδευτεί σε ένα τεράστιο σύνολο δεδομένων βίντεο στο Διαδίκτυο, ιδιαίτερα σε αυτά που παρουσιάζουν το παιχνίδι. Μέσω αυτής της εκπαίδευσης, ο Genie αναπτύσσει μια βαθιά κατανόηση του πώς λειτουργούν τα περιβάλλοντα και πώς συνήθως αλληλεπιδρούν οι παίκτες μαζί τους.

Σκεφτείτε το Google Genie ως τον προσωπικό σας βοηθό ανάπτυξης παιχνιδιών. Το μόνο που χρειάζεται να κάνετε είναι να δώσετε ένα σημείο εκκίνησης και αυτό θα μπορούσε να είναι:

  • ένα

    εικόνα
  • ένα

    γραπτή περιγραφή
  • ένα

    απλό χειροποίητο σκίτσο

Στη συνέχεια, το Google Genie λαμβάνει τα σχόλιά σας και χρησιμοποιεί τη δημιουργική του δύναμη για να δημιουργήσει έναν μοναδικό, πλήρως αναπαραγόμενο εικονικό χώρο.

Η πραγματική μαγεία εδώ είναι ότι το Google Genie μαθαίνει να δημιουργεί

ελεγχόμενους εικονικούς κόσμους χωρίς συγκεκριμένες οδηγίες παιχνιδιού

. Αναλύει βίντεο για να κατανοήσει τους βασικούς κανόνες των περιβαλλόντων και με τι μπορούν να αλληλεπιδράσουν οι παίκτες. Είναι αξιοσημείωτο ότι αυτό επιτρέπει συνεπή σχήματα ελέγχου ακόμη και σε εντελώς νέους κόσμους που δημιουργούνται από AI.



Χρησιμοποιώντας πολύπλοκους αλγόριθμους, το Google Genie μετατρέπει στατικές εικόνες σε παιχνίδια με δυνατότητα αναπαραγωγής


(

Πίστωση εικόνας

)

Η μαγεία του Google DeepMind


Google DeepMind

καταφέρνει να μας σοκάρει σχεδόν με ό,τι κάνει και το Google Genie δεν αποτελεί εξαίρεση.

Ο εγκέφαλος του Google Genie είναι χτισμένος σε έναν ειδικό τύπο μετασχηματιστή που ονομάζεται α

χωροχρονικός (ST) μετασχηματιστής

. Σε αντίθεση με τους κανονικούς μετασχηματιστές που έχουν σχεδιαστεί για κείμενο, οι μετασχηματιστές ST είναι ειδικά ρυθμισμένοι για να κατανοούν τα βίντεο. Δίνουν προσοχή στο τι συμβαίνει μέσα σε κάθε μεμονωμένο πλαίσιο (χωρική προσοχή) και επίσης στο πώς αλλάζουν τα πράγματα σε πολλαπλά πλαίσια με την πάροδο του χρόνου (χρονική προσοχή). Αυτό τους κάνει πολύ καλύτερους στο χειρισμό των περίπλοκων μοτίβων που βρίσκονται στις κινούμενες εικόνες.

Τα βίντεο αποτελούνται από έναν τόνο

, τα οποία μπορεί να είναι πολλά για ένα μοντέλο. Τζίνι

χρησιμοποιεί ένα βίντεο tokenizer για να στριμώξει αυτά τα καρέ γεμάτα με pixel

σε μικρότερα, ευκολότερα στην επεξεργασία κομ

που ονομάζονται tokens. Σκεφτείτε το σαν να μεταφράζετε μια ολόκληρη ταινία σε μια σειρά από βασικά σύμβολα. Αυτή η απλοποίηση κάνει όλη τη διαδικασία δημιουργίας βίντεο πιο ομαλή και ταχύτερη.

Το LAM είναι σαν ένας ντετέκτιβ στο Google Genie. Παρακολουθεί βίντεο και προσπαθεί να καταλάβει τις ανείπωτες ενέργειες που συμβαίνουν μεταξύ των καρέ. Αυτό είναι σημαντικό γιατί αν θέλετε να ελέγξετε τον τρόπο αναπαραγωγής ενός βίντεο που δημιουργείται, πρέπει να κατανοήσετε τις ενέργειες που το καθοδηγούν. Δεδομένου ότι τα βίντεο από το Διαδίκτυο δεν συνοδεύονται από ετικέτες δράσης, το LAM πρέπει να μάθει να καταλαβαίνει αυτά τα πράγματα από μόνο του.

ο

δυναμικό μοντέλο

είναι η

της δύναμης του Google Genie στη δημιουργία βίντεο. Λαμβάνει τα διακριτικά βίντεο και τις προκαθορισμένες ενέργειες από το LAM και τα χρησιμοποιεί για να προβλέψει πώς θα μοιάζει το επόμενο καρέ του βίντεο. Είναι σαν να έχεις μια κρυστάλλινη σφαίρα που μπορεί να σου δείξει το επόμενο βήμα σε μια ταινία βασισμένη στο τι έχει συμβεί μέχρι τώρα και στη δράση που θέλεις να κάνεις.


VQ-VAE

είναι μια φανταχτερή τεχνική που βοηθά το Google Genie να οργανώσει τις πληροφορίες. Είναι σαν να δίνετε τόσο στο video tokenizer όσο και στο LAM ένα ειδικό βιβλίο κωδικών για να μεταφράζουν πράγματα σε μικρότερα, πιο διαχειρίσιμα κομμάτια. Αυτό κάνει την εκμάθηση και την αναπαράσταση σύνθετων μοτίβων σε βίντεο πολύ πιο αποτελεσματική.

Τι είναι το Google Genie και πώς να το χρησιμοποιήσετε


Το Dynamics Model που χρησιμοποιείται στο Google Genie

προβλέπει και δημιουργεί το επόμενο καρέ του βίντεο, συνεχίζοντας το παιχνίδι

(

Πίστωση εικόνας

)

Ακολουθεί μια σύνοψη της ροής εργασίας του Google Genie:


  1. Συμπέρασμα λανθάνουσας δράσης:


    1. Κωδικοποιητής

      : Λήψη σε ακολουθία βίντεο. Δημιουργεί συνεχείς αναπαραστάσεις που σχετίζονται με τις ενέργειες που συμβαίνουν μεταξύ των πλαισίων

    2. Αποκρυπτογράφος

      : Αυτό το στοιχείο υπάρχει μόνο για εκπαίδευση. Προβλέπει το πραγματικό επόμενο πλαίσιο χρησιμοποιώντας προηγούμενα πλαίσια και τις λανθάνουσες ενέργειες που παράγονται από τον κωδικοποιητή. Αυτό βοηθά στην εκπαίδευση του LAM ώστε να δημιουργεί ουσιαστικές αναπαραστάσεις ενεργειών

    3. VQ-VAE

      : Οι προβλεπόμενες λανθάνουσες ενέργειες κβαντίζονται σε ένα μικρό σύνολο διακριτών κωδικών. Αυτό εξασφαλίζει ένα περιορισμένο λεξιλόγιο δράσης, διευκολύνοντας τον ανθρώπινο έλεγχο κατά τη διαδικασία παραγωγής

  2. Διακριτική βίντεο:


    1. Tokenizer βίντεο που βασίζεται σε ST-Transformer (ST-ViViT)

      : Ενσωματώνει τόσο χωρικές όσο και χρονικές πληροφορίες κατά τη φάση του tokenization. Αυτό βελτιώνει την ποιότητα δημιουργίας βίντεο σε σύγκριση με τα διακριτικά μόνο χωρικής χρήσης

  3. Δυναμική μοντελοποίηση:


    1. Μετασχηματιστής MaskGIT

      : Το Genie χρησιμοποιεί μια παραλλαγή της αρχιτεκτονικής MaskGIT μόνο για αποκωδικοποιητή

    2. Εισαγωγή

      : Σε κάθε βήμα, λαμβάνει τόσο τα προηγούμενα διακριτικά βίντεο όσο και την αντίστοιχη λανθάνουσα ενέργεια

    3. Παραγωγή

      : Προβλέπει τα διακριτικά που αντιπροσωπεύουν το επόμενο πλαίσιο

    4. Εκπαίδευση

      : Εκπαιδεύτηκε με απώλεια διασταυρούμενης εντροπίας για να ευθυγραμμίσει τα προβλεπόμενα διακριτικά με τα πραγματικά διακριτικά από το βίντεο. Η μάσκα χρησιμοποιείται κατά την προπόνηση για τη βελτίωση της ευρωστίας

  4. Συμπέρασμα:


    1. Αρχικοποίηση

      : Ο χρήστης παρέχει ένα αρχικό πλαίσιο εικόνας, το οποίο είναι διακριτικό

    2. Επιλογή Δράσης

      : Ο χρήστης επιλέγει μια επιθυμητή ενέργεια από το διακριτό λεξιλόγιο που έχει μάθει κατά τη φάση LAM

    3. Προφητεία

      : Το μοντέλο δυναμικής δημιουργεί τα διακριτικά του επόμενου πλαισίου με βάση τα αρχικά διακριτικά πλαισίου και την επιλεγμένη ενέργεια

    4. Αποκρυπτογράφηση

      : Ο αποκωδικοποιητής του video tokenizer μετατρέπει τα προβλεπόμενα διακριτικά ξανά σε ένα πλαίσιο βίντεο

    5. Αυτοπαλίνδρομο

      : Η διαδικασία επαναλαμβάνεται, με το πλαίσιο που δημιουργήθηκε πρόσφατα και μια νέα ενέργεια που καθορίζεται από τον χρήστη να γίνεται η είσοδος για την επόμενη πρόβλεψη

Θέλετε να μάθετε περισσότερα; Εδώ είναι

Η ερευνητική εργασία του Google Genie

.

Τι είναι το Google Genie και πώς να το χρησιμοποιήσετε


Το Google Genie υπονοεί ένα μέλλον όπου η κοινή χρήση του προσαρμοσμένου παιχνιδιού σας είναι τόσο εύκολη όσο η κοινή χρήση μιας φωτογραφίας


(

Πίστωση εικόνας

)

Πώς να χρησιμοποιήσετε το Google Genie

Ενώ

Το Google Genie δεν είναι ακόμη διαθέσιμο για δημόσια χρήση

μπορείτε να βρείτε περισσότερες πληροφορίες και

συναρπαστικά demos στην επίσημη ιστοσελίδα

. Και προσέξτε: Αυτή η τεχνολογία έχει τη δυνατότητα να αλλάξει ριζικά τον τρόπο με τον οποίο δημιουργούμε και βιώνουμε παιχνίδια!

Χτίζοντας το μέλλον του gaming

Ενώ είναι ακόμη στα πρώτα του στάδια, το Google Genie επιδεικνύει την εκπληκτική δύναμη της δημιουργικότητας που βασίζεται στην τεχνητή νοημοσύνη. Θολώνει τη γραμμή μεταξύ των φανταστικών κόσμων μας και αυτών στους οποίους παίζουμε, υπονοώντας ένα μέλλον όπου η κοινή χρήση του παιχνιδιού σας είναι τόσο εύκολη όσο η κοινή χρήση μιας φωτογραφίας.

Ωστόσο, υπάρχουν προκλήσεις που πρέπει να ξεπεραστούν. Επί του παρόντος,

Το Genie διαπρέπει στα 2D platformers

αλλά η κλιμάκωση σε σύνθετους τρισδιάστατους κόσμους παραμένει δύσκολη.

Επιπλέον, τα παιχνίδια που δημιουργούνται

έχουν σχετικά απλά χειριστήρια

; Η μελλοντική έρευνα πιθανότατα θα επικεντρωθεί σε λεπτότερο έλεγχο και πολύπλοκη μηχανική.

Ως παραγωγικό μοντέλο, το Genie μπορεί να εκπλήξει, καλώς ή κακώς, το να βρίσκει τρόπους

καθοδηγούν τη διαδικασία παραγωγής προς την πρόθεση του δημιουργού

είναι ένας τομέας ενεργούς έρευνας.




Πίστωση επιλεγμένης εικόνας


:

Oleg Gamulinskii/Pixabay

.


VIA:

DataConomy.com


Follow TechWar.gr on Google News