Το DeepMind της Google έχει ένα νέο μοντέλο για ρομπότ

On

Ιούλ 31, 2023

Ο τεχνολογικός γίγαντας Google και η θυγατρική του ερευνητικό εργαστήριο τεχνητής νοημοσύνης, DeepMind, δημιούργησαν έναν βασικό μεταφραστή από άνθρωπο σε

ρομπότ

. Το περιγράφουν ως ένα «πρώτο στο είδος του μοντέλο όρασης-γλώσσας-δράσης». Το ζεύγος

είπε

σε

δύο ξεχωριστές ανακοινώσεις

Παρασκευή που το μοντέλο, που ονομάζεται RT-2, εκπαιδεύεται με γλωσσικές και οπτικές εισόδους και έχει σχεδιαστεί για να μεταφράζει τη γνώση από τον Ιστό σε οδηγίες που τα ρομπότ μπορούν να κατανοήσουν και να ανταποκριθούν.

Σε μια σειρά δοκιμών, το ρομπότ έδειξε ότι μπορεί να αναγνωρίσει και να διακρίνει τις σημαίες διαφορετικών χωρών, μια μπάλα ποδοσφαίρου από μια μπάλα μπάσκετ, ποπ εικονίδια όπως η Taylor Swift και αντικείμενα όπως ένα κουτάκι Red Bull.

«Η επιδίωξη του

χρήσιμα ρομπότ

ήταν πάντα μια ηράκλεια προσπάθεια, επειδή ένα ρομπότ ικανό να κάνει γενικές εργασίες στον κόσμο πρέπει να είναι σε θέση να χειρίζεται περίπλοκες, αφηρημένες εργασίες σε περιβάλλοντα υψηλής μεταβλητότητας — ειδικά αυτά που δεν έχουν ξαναδεί», δήλωσε ο Vincent Vanhoucke, επικεφαλής ρομποτικής στο Google DeepMind. , είπε στο α

ανάρτηση

. «Σε αντίθεση με τα chatbot, τα ρομπότ χρειάζονται «γείωση» στον πραγματικό κόσμο και τις ικανότητές τους… Ένα ρομπότ πρέπει να είναι σε θέση να αναγνωρίζει ένα μήλο στο πλαίσιο, να το ξεχωρίζει από μια κόκκινη μπάλα, να κατανοεί πώς μοιάζει και, το πιο σημαντικό, να ξέρει πώς να Σήκωσέ το.”

Αυτό σημαίνει ότι τα ρομπότ εκπαίδευσης απαιτούσαν παραδοσιακά τη δημιουργία δισεκατομμυρίων σημείων δεδομένων από την αρχή, μαζί με συγκεκριμένες οδηγίες και εντολές. Μια εργασία όπως το να πεις σε ένα ρομπότ να πετάξει ένα κομμάτι σκουπιδιών περιλάμβανε προγραμματιστές ρητά εκπαιδεύοντας το ρομπότ να αναγνωρίζει το αντικείμενο που είναι τα σκουπίδια, τον κάδο απορριμμάτων και ποιες ενέργειες πρέπει να κάνει για να πάρει το αντικείμενο και να το πετάξει.

Τα τελευταία χρόνια, η Google διερευνά διάφορους τρόπους διδασκαλίας ρομπότ να κάνουν εργασίες με τον τρόπο που θα διδάσκατε έναν άνθρωπο (ή έναν σκύλο). Πέρυσι, η Google παρουσίασε ένα ρομπότ που μπορεί να γράψει τον δικό του κώδικα με βάση οδηγίες φυσικής γλώσσας από ανθρώπους. Μια άλλη θυγατρική της Google με την ονομασία Everyday Robots προσπάθησε να αντιστοιχίσει τις εισροές των χρηστών με μια προβλεπόμενη απόκριση χρησιμοποιώντας ένα μοντέλο που ονομάζεται SayCan που αντλούσε πληροφορίες από τη Wikipedia και τα μέσα κοινωνικής δικτύωσης.

[Related:

Google is testing a new robot that can program itself

]

Μερικά παραδείγματα εργασιών που μπορεί να κάνει το ρομπότ.

DeepMind

Το RT-2 δημιουργεί ένα παρόμοιο πρόδρομο μοντέλο που ονομάζεται RT-1 που επιτρέπει στις μηχανές να ερμηνεύουν νέες εντολές χρήστη μέσω μιας αλυσίδας βασικών συλλογισμών. Επιπλέον, το RT-2 διαθέτει δεξιότητες που σχετίζονται με την κατανόηση συμβόλων και την ανθρώπινη αναγνώριση—δεξιότητες που η Google πιστεύει ότι θα το κάνουν ικανό ως ρομπότ γενικού σκοπού που εργάζεται σε ανθρωποκεντρικό περιβάλλον.

Περισσότερες λεπτομέρειες σχετικά με το τι μπορούν και τι δεν μπορούν να κάνουν τα ρομπότ με το RT-2 είναι διαθέσιμες στο

ένα χαρτί

Η DeepMind και η Google τέθηκαν στο διαδίκτυο.

[Related:

A simple guide to the expansive world of artificial intelligence

]

Το RT-2 αντλεί επίσης από την εργασία που έχει γίνει μέσω μοντέλων γλώσσας όρασης (VLM) που έχουν χρησιμοποιηθεί για τη δημιουργία λεζάντας εικόνων, την αναγνώριση αντικειμένων σε ένα πλαίσιο ή την απάντηση σε ερωτήσεις σχετικά με μια συγκεκριμένη εικόνα. Έτσι, σε αντίθεση με το SayCan, αυτό το μοντέλο μπορεί πραγματικά να δει τον κόσμο γύρω του. Αλλά για να γίνει έτσι ώστε τα VLM να μπορούν να ελέγχουν ρομπότ, πρέπει να προστεθεί σε αυτό ένα στοιχείο για ενέργειες εξόδου. Και αυτό γίνεται με την αναπαράσταση διαφορετικών ενεργειών που μπορεί να εκτελέσει το ρομπότ ως μάρκες στο μοντέλο. Με αυτό, το μοντέλο μπορεί όχι μόνο να προβλέψει ποια θα μπορούσε να είναι η απάντηση στο ερώτημα κάποιου, αλλά μπορεί επίσης να δημιουργήσει την ενέργεια που πιθανότατα σχετίζεται με αυτό.

Η DeepMind σημειώνει ότι, για παράδειγμα, εάν κάποιος πει ότι είναι κουρασμένος και θέλει ένα ποτό, το ρομπότ θα μπορούσε να αποφασίσει να του πάρει ένα ενεργειακό ποτό.

https://www.popsci.com/