Η Boston Dynamics ενσωματώνει το ChatGPT στην ανάπτυξη ρομπότ
Τι πρέπει να ξέρετε
-
Μια ομάδα μηχανικών ανέπτυξε πρόσφατα ένα ρομπότ αξιοποιώντας τις δυνατότητες παραγωγής τεχνητής νοημοσύνης για να χρησιμεύσει ως ξεναγός στις εγκατασ
τάσεις
της Boston Dynamics. - Η Boston Dynamics εκπαίδευσε τα συστήματα AI της σε ένα τεράστιο σύνολο δεδομένων. Η ομάδα ανάπτυξης παραδέχεται ότι ενώ η εφεύρεση είναι εντυπωσιακή, αντιμετώπισαν πολλά προβλήματα, συμπεριλαμβανομένων επεισοδίων παραισθήσεων.
- Το ρομπότ βασίζεται στο μοντέλο GPT-4 του OpenAI, αλλά η ομάδα ανάπτυξης χρησιμοποίησε άμεσες τεχνικές μηχανικής για να ελέγξει τις αποκρίσεις του.
Με όλη τη σημασία της λέξης, η γενετική τεχνητή νοημοσύνη αναδιαμορφώνει τον τρόπο με τον οποίο κάνουμε τις καθημερινές μας δραστηριότητες με τον ένα ή τον άλλο τρόπο. Από το να βοηθάς μαθητές να λύσουν σύνθετα μαθηματικά προβλήματα, να γράψουν ποιήματα, ακόμη και να δημιουργήσουν εικόνες με βάση τη φαντασία και τις προτροπές σου. Με βάση αυτές τις περιπτώσεις, το μέλλον φαίνεται λαμπρό, καθώς η τεχνολογία θα βοηθήσει τους χρήστες να εξερευνήσουν περισσότερους δρόμους καθώς και αναξιοποίητες ευκαιρίες.
Μιλώντας για αναξιοποίητες ευκαιρίες, η Boston Dynamics κατέγραψε πρόσφατα νέα ύψη που πέτυχε αξιοποιώντας τις δυνατότητες παραγωγής τεχνητής νοημοσύνης. Η εταιρία
δημιούργησε ένα ρομπότ που έχει σχεδιαστεί για να χρησιμεύει ως ξεναγός
χρησιμοποιώντας το ρομπότ Spot, ενσωματωμένο στο ChatGPT και άλλα μοντέλα AI.
Η αμερικανική εταιρεία μηχανικής και σχεδιασμού ειδικεύεται στην ανάπτυξη ρομπότ, συμπεριλαμβανομένου του περίφημου «Spot» που μοιάζει με σκύλο. Τα ρομπότ έχουν σχεδιαστεί για να διευκολύνουν την εργασία για τους χρήστες καθώς αναλαμβάνουν
επα
ναλαμβανόμενες, επικίνδυνες και σύνθετες εργασίες, ενισχύοντας τελικά την παραγωγικότητα ενώ ταυτόχρονα επιβεβαιώνουν την ασφάλεια του χρήστη.
Συγκεκριμένα, μας ενδιέφερε μια επίδειξη του Spot χρησιμοποιώντας τα μοντέλα θεμελίωσης ως εργαλεία αυτονομίας—δηλαδή τη λήψη αποφάσεων σε πραγματικό χρόνο με βάση την έξοδο των FM. Τα μοντέλα μεγάλων γλωσσών (LLM) όπως το ChatGPT είναι βασικά πολύ μεγάλοι, πολύ ικανοί αλγόριθμοι αυτόματης συμπλήρωσης. παίρνουν μια ροή κειμένου και προβλέπουν το επόμενο κομμάτι κειμένου. Εμπνευστήκαμε από τη φαινομενική ικανότητα των LLM να παίζουν ρόλους, να αναπαράγουν την κουλτούρα και τις αποχρώσεις, να σχηματίζουν σχέδια και να διατηρούν τη συνοχή με την πάροδο του χρόνου, καθώς και από μοντέλα Visual Question Answering (VQA) που κυκλοφόρησαν πρόσφατα που μπορούν να δίνουν λεζάντες σε εικόνες και να απαντούν σε απλές ερωτήσεις σχετικά με αυτές.
Matt Klingensmith, Μηχανικός Λογισμικού
Η εμφάνιση μεγάλων συστημάτων τεχνητής νοημοσύνης που εκπαιδεύονται σε ένα τεράστιο σύνολο δεδομένων προκάλεσε το ενδιαφέρον του Matt Klingensmith (Κύριος Μηχανικός Λογισμικού) κυρίως λόγω της Αναδυόμενης Συμπεριφοράς που αποτελεί μέρος αυτών των μοντέλων. Η Emergent Behavior είναι η ικανότητα των chatbot που υποστηρίζονται από AI να εκτελούν εργασίες εκτός των δεδομένων στα οποία βασίζονται και εκπαιδεύονται.
Ο Matt το θεώρησε ως μια μεγάλη ευκαιρία, η οποία οδήγησε στην έναρξη του έργου νωρίτερα φέτος το καλοκαίρι με στόχο να διερευνήσει τον αντίκτυπό του στην ανάπτυξη της ρομποτικής.
Πώς λειτουργεί ο ξεναγός ρομπότ;
Ο μηχανικός λογισμικού αποκάλυψε ότι η ανάπτυξη ενός ρομποτικού ξεναγού ήταν ο ευκολότερος και ταχύτερος τρόπος για να δοκιμαστεί αυτή η θεωρία. Ουσιαστικά, το ρομπότ έχει τη δυνατότητα να περπατά στους χώρους της εταιρείας κοιτάζοντας αντικείμενα.
Επιπλέον, αξιοποιεί ένα VQA, το οποίο είναι ένα μοντέλο λεζάντας για να περιγράψει τα αντικείμενα μέσα στην άποψή του, επεξεργάζοντας περαιτέρω την περιγραφή του χρησιμοποιώντας ένα μοντέλο μεγάλης γλώσσας (LLM). Μέσω του LLM, το ρομπότ μπορεί επίσης να απαντήσει σε ερωτήσεις του κοινού του και ακόμη και να σχεδιάσει τις επόμενες ενέργειες που πρέπει να κάνει.
Ενώ οι LLMs όπως το Bing Chat αντιμετώπισαν αρκετά προβλήματα, συμπεριλαμβανομένων επεισοδίων παραισθήσεων, αυτό δεν ήταν μια σημαντική ανησυχία για την ομάδα ανάπτυξης του ρομπότ. Αντίθετα, η ομάδα επικεντρώθηκε περισσότερο στις ψυχαγωγικές και διαδραστικές πτυχές. Εξάλλου, η ικανότητα του ρομπότ να περπατά ήταν ήδη κατανοητή
SDK αυτονομίας Spot
. Η Boston Dynamics αξιοποιεί το Spot SDK για να υποστηρίξει την ανάπτυξη αυτόνομων συμπεριφορών πλοήγησης για το ρομπότ Spot.
Για λόγους επικοινωνίας, η ομάδα 3D εκτύπωσε μια αντικραδασμική βάση για ένα ηχείο Respeaker V2 σε συνδυασμό με ένα μικρόφωνο με διάταξη δακτυλίου με LED στον ξεναγό του ρομπότ. Με αυτόν τον τρόπο, το ρομπότ μπορεί να ακούσει το κοινό του και να απαντήσει στα ερωτήματά του.
Με βάση αυτή την προϋπόθεση, η ομάδα ενσωμάτωσε το ChatGPT API του OpenAI ξεκινώντας με το μοντέλο GPT-3.5, αλλά τελικά μετατράπηκε στο GPT-4 μόλις αποσταλεί σε γενική διαθεσιμότητα για να βελτιώσει περαιτέρω τις επικοινωνιακές δεξιότητες του ρομπότ. Για να διασφαλιστεί ότι το ρομπότ δεν θα βγει εκτός ελέγχου ή δεν θα δώσει δυσάρεστες απαντήσεις, η ομάδα χρησιμοποίησε άμεσες τεχνικές μηχανικής.
Σύμφωνα με την ομάδα ανάπτυξης του ρομπότ:
«Εμπνευσμένο από α
μέθοδο από τη Microsoft
, ζητήσαμε το ChatGPT κάνοντάς το να φαίνεται σαν να έγραφε την επόμενη γραμμή σε ένα σενάριο Python. Δώσαμε αγγλική τεκμηρίωση στο LLM με τη μορφή σχολίων. Στη συνέχεια αξιολογήσαμε την έξοδο του LLM σαν να ήταν κώδικας Python.”
Η ομάδα αποκάλυψε επίσης ότι το LLM που ενσωματώθηκε στο ρομπότ είχε επίσης πρόσβαση στο Spot autonomy SDK, έναν λεπτομερή χάρτη της τοποθεσίας περιήγησης σε συνδυασμό με περιγραφές μιας γραμμής για κάθε τοποθεσία, καθώς και τη δυνατότητα να απαντά και να κάνει ερωτήσεις.
Μετατροπή κειμένου σε ομιλία
Ο Matt Klingensmith αλληλεπιδρά με το ρομπότ συνομιλίας ενώ βρίσκεται σε ξεναγό στην Boston Dynamics.
(Εικόνα: Boston Dynamics)
Ενώ το ρομπότ βασίζεται σε μεγάλο βαθμό στο ChatGPT για επικοινωνία, είναι προφανές ότι το chatbot βασίζεται σε κείμενο. Αυτός είναι ο λόγος για την ανάπτυξη της υπηρεσίας cloud
Eleven Labs
για να χρησιμεύσει ως εργαλείο μετατροπής κειμένου σε ομιλία.
Η ομάδα ενσωμάτωσε επίσης την κάμερα λαβής του ρομπότ και την κάμερα μπροστινού σώματος στο BLIP-2. Με αυτόν τον τρόπο, είναι πιο εύκολο γι ‘αυτό να ερμηνεύσει αυτό που βλέπει και να παρέχει το πλαίσιο. Σύμφωνα με την ομάδα που το BLIP-2 έτρεξε τις εικόνες και τα γραφικά “είτε σε λειτουργία οπτικής απάντησης ερωτήσεων (με απλές ερωτήσεις όπως “τι είναι ενδιαφέρον για αυτήν την εικόνα;”) είτε σε λειτουργία υπότιτλων εικόνων” τουλάχιστον μία φορά το δευτερόλεπτο.
Συζητήσεις που θυμίζουν ζωή
Η ομάδα ήθελε επίσης να παρουσιάσει μια εμπειρία ζωής για το κοινό, ενώ αλληλεπιδρούσε με το ρομπότ κατά τη διάρκεια της περιοδείας. Ως εκ τούτου, η ομάδα ενσωμάτωσε κάποια προεπιλεγμένη γλώσσα του σώματος για να ζωντανέψει αυτή την εμπειρία. Χάρη στο
Έκδοση Spot 3.3
το ρομπότ είναι σε θέση να κατευθύνει το χέρι του στο πλησιέστερο άτομο ενώ εξηγεί μια συγκεκριμένη
έννοια
.
Η διαδικασία εξέλιξης αποδείχθηκε εντυπωσιακή, καθώς η ομάδα αντιμετώπισε αρκετές εκπλήξεις. Για παράδειγμα, όταν ρωτήθηκε ποιος ήταν ο Marc Raibert, το ρομπότ απάντησε δηλώνοντας ότι δεν ήξερε και συνέστησε να κατευθυνθεί στο γραφείο βοήθειας πληροφορικής για περαιτέρω βοήθεια. Παραδόξως, η ομάδα ανάπτυξης δεν ώθησε το LLM να αναζητήσει περαιτέρω βοήθεια. Σύμφωνα με τον Matt, το ρομπότ πρέπει να έχει συσχετίσει τη θέση του γραφείου βοήθειας πληροφορικής με την
ενέργεια
του να ζητάει βοήθεια.
Ο Ματ παραδέχεται ότι ενώ ο ξεναγός ρομπότ είναι εντυπωσιακός, εντοπίστηκε να έχει σοβαρές παραισθήσεις και να επινοεί πράγματα. Χωρίς να ξεχνάμε τις αρνητικές επιπτώσεις στην απόδοση του ρομπότ σε περίπτωση που δεν ήταν σε θέση να δημιουργήσει μια σταθερή σύνδεση στο
Διαδίκτυο
.
Προχωρώντας προς τα εμπρός, η ομάδα στοχεύει να εξερευνήσει αυτή τη λεωφόρο ακόμη περισσότερο, ειδικά αφού ανακάλυψε ότι είναι δυνατό να ενσωματωθούν τα αποτελέσματα πολλών γενικών συστημάτων τεχνητής νοημοσύνης μαζί.
VIA:
WindowsCentral
