Η Agility χρησιμοποιεί μεγάλα γλωσσικά μοντέλα για να επικοινωνεί με τα ανθρωποειδή ρομπότ της
Έχω περάσει μεγάλο μέρος του περασμένου έτους συζητώντας για τη δημιουργία τεχνητής νοημοσύνης και τα μεγάλα γλωσσικά μοντέλα με ειδικούς στη ρομποτική. Γίνεται ολοένα και πιο σαφές ότι αυτού του είδους οι τεχνολογίες προορίζονται να φέρουν επανάσταση στον τρόπο με τον οποίο τα ρομπότ επικοινωνούν, μαθαίνουν, φαίνονται και προγραμματίζονται.
Ως εκ τούτου, μια σειρά από κορυφαία πανεπιστήμια, ερευνητικά εργαστήρια και εταιρείες διερευνούν τις καλύτερες μεθόδους για την αξιοποίηση αυτών των πλατφορμών τεχνητής νοημοσύνης. Η καλά χρηματοδοτούμενη startup Agility με έδρα το Όρεγκον παίζει με την τεχνολογία εδώ και λίγο καιρό χρησιμοποιώντας το δίποδο ρομπότ της, το Digit.
Σήμερα, η εταιρεία παρουσιάζει μερικά από αυτά τα έργα σε ένα σύντομο βίντεο που κοινοποιείται μέσω των κοινωνικών καναλιών της.
“[W]Ήμασταν περίεργοι να δω τι μπορεί να επιτευχθεί με την ενσωμάτωση αυτής της τεχνολογίας στο Digit», σημειώνει η εταιρεία. «Μια φυσική ενσάρκωση της τεχνητής νοημοσύνης δημιούργησε έναν χώρο επίδειξης με μια σειρά αριθμημένων πύργων πολλών υψών, καθώς και τρία κουτιά με πολλαπλά καθοριστικά χαρακτηριστικά. Η Digit έλαβε πληροφορίες σχετικά με αυτό το περιβάλλον, αλλά δεν έλαβε συγκεκριμένες πληροφορίες σχετικά με τα καθήκοντά της, απλώς εντολές φυσικής γλώσσας διαφορετικής πολυπλοκότητας για να δει αν μπορεί να τις εκτελέσει.”
Στο παράδειγμα βίντεο, η Digit καλείται να πάρει ένα κουτί στο χρώμα του «φωτόσπαθου του Darth Vader» και να το μεταφέρει στον ψηλότερο πύργο. Η διαδικασία δεν είναι στιγμιαία, αλλά μάλλον αργή και σκόπιμη, όπως θα περίμενε κανείς από ένα demo σε πρώιμο στάδιο. Το ρομπότ, ωστόσο, εκτελεί την εργασία όπως περιγράφεται.
Το Agility σημειώνει, «Η ομάδα καινοτομίας μας ανέπτυξε αυτήν τη διαδραστική επίδειξη για να δείξει πώς τα LLM θα μπορούσαν να κάνουν τα ρομπότ μας πιο ευέλικτα και πιο γρήγορα στην ανάπτυξη. Η επίδειξη δίνει τη δυνατότητα στους ανθρώπους να μιλήσουν στο Digit σε φυσική γλώσσα και να του ζητήσουν να κάνει εργασίες, δίνοντας μια ματιά στο μέλλον».
Θέλετε τα κορυφαία νέα ρομποτικής στα εισερχόμενά σας κάθε εβδομάδα; Εγγραφείτε στο Actuator εδώ.
Η επικοινωνία με φυσική γλώσσα ήταν μια βασική πιθανή εφαρμογή αυτής της τεχνολογίας, μαζί με την ικανότητα προγραμματισμού συστημάτων μέσω τεχνολογιών χαμηλού και χωρίς κώδικα.
Κατά τη διάρκεια του πάνελ μου στο Disrupt, ο Gill Pratt περιέγραψε πώς το Ερευνητικό Ινστιτούτο Toyota χρησιμοποιεί τη γενετική τεχνητή νοημοσύνη για να επιταχύνει τη ρομποτική εκμάθηση:
Έχουμε καταλάβει πώς να κάνουμε κάτι, δηλαδή να χρησιμοποιούμε σύγχρονες τεχνικές γενετικής τεχνητής νοημοσύνης που επιτρέπουν την ανθρώπινη επίδειξη τόσο της θέσης όσο και της δύναμης να διδάξει ουσιαστικά ένα ρομπότ από λίγα μόνο παραδείγματα. Ο κωδικός δεν αλλάζει καθόλου. Αυτό στο οποίο βασίζεται είναι κάτι που ονομάζεται πολιτική διάχυσης. Είναι δουλειά που κάναμε σε συνεργασία με την Columbia και το MIT. Έχουμε διδάξει 60 διαφορετικές δεξιότητες μέχρι στιγμής.
Η Daniela Rus του MIT CSAIL μου είπε επίσης πρόσφατα: «Αποδεικνύεται ότι η γενετική τεχνητή νοημοσύνη μπορεί να είναι αρκετά ισχυρή για την επίλυση ακόμη και προβλημάτων σχεδιασμού κίνησης. Μπορείτε να λάβετε πολύ πιο γρήγορες λύσεις και πολύ πιο ρευστές και ανθρώπινες λύσεις για έλεγχο από ό,τι με λύσεις πρόβλεψης μοντέλων. Νομίζω ότι είναι πολύ ισχυρό, γιατί τα ρομπότ του μέλλοντος θα είναι πολύ λιγότερο ρομποτικά. Θα είναι πολύ πιο ρευστά και ανθρώπινα στις κινήσεις τους».
Οι πιθανές εφαρμογές εδώ είναι ευρείες και συναρπαστικές — και το Digit, ως ένα προηγμένο εμπορικά διαθέσιμο ρομποτικό σύστημα που χρησιμοποιείται πιλοτικά σε κέντρα ολοκλήρωσης της Amazon και σε άλλες τοποθεσίες του πραγματικού κόσμου, φαίνεται να είναι πρωταρχικός υποψήφιος. Εάν η ρομποτική πρόκειται να λειτουργήσει δίπλα στους ανθρώπους, θα πρέπει να μάθουν να τους ακούν επίσης.
VIA:
techcrunch.com

