Τα ρομπότ μαθαίνουν να κάνουν δουλειές βλέποντας το YouTube

Η μάθηση είναι ένα ιερό δισκοπότηρο στη ρομποτική εδώ και δεκαετίες. Εάν αυτά τα συστήματα πρόκειται να ευδοκιμήσουν σε απρόβλεπτα περιβάλλοντα, θα χρειαστεί να κάνουν περισσότερα από το να ανταποκρίνονται απλώς στον προγραμματισμό — θα πρέπει να προσαρμοστούν και να μάθουν. Αυτό που γίνεται σαφές όσο περισσότερο διαβάζω και μιλάω με ειδικούς είναι ότι η αληθινή ρομποτική μάθηση θα απαιτεί συνδυασμό πολλών λύσεων.

Το βίντεο είναι μια ενδιαφέρουσα λύση που έχει αποτελέσει το επίκεντρο πολλών πρόσφατων εργασιών στον χώρο. Περίπου αυτή την εποχή πέρυσι, επισημάναμε το WHIRL (in-the-Wild Human Imitating Robot Learning), έναν αλγόριθμο που αναπτύχθηκε από την CMU και έχει σχεδιαστεί για να εκπαιδεύει ρομποτικά συστήματα παρακολουθώντας μια εγγραφή ενός ανθρώπου που εκτελεί μια εργασία.

Αυτή την εβδομάδα, ο επίκουρος καθηγητής του CMU

Institute Deepak Pathak

παρουσιάζει VRB

(Vision-Robotics Bridge), μια εξέλιξη στο WHIRL. Όπως και με τον προκάτοχό του, το σύστημα χρησιμοποιεί βίντεο ενός ανθρώπου για να επιδείξει την εργασία, αλλά η ενημέρωση δεν απαιτεί πλέον να εκτελείται σε μια ρύθμιση πανομοιότυπη με αυτή στην οποία θα λειτουργεί το ρομπότ.

«Μπορέσαμε να μεταφέρουμε ρομπότ στην πανεπιστημιούπολη και να κάνουμε κάθε είδους εργασίες», σημειώνει ο φοιτητής διδάκτορας Shikhar Bahl σε μια δήλωση. «Τα ρομπότ μπορούν να χρησιμοποιήσουν αυτό το μοντέλο για να εξερευνήσουν με περιέργεια τον κόσμο γύρω τους. Αντί να χτυπά απλώς τα χέρια του, ένα ρομπότ μπορεί να είναι πιο άμεσο με τον τρόπο που αλληλεπιδρά».

Το ρομπότ παρακολουθεί για μερικές βασικές πληροφορίες, συμπεριλαμβανομένων των σημείων επαφής και της τροχιάς. Η ομάδα χρησιμοποιεί το άνοιγμα ενός συρταριού ως παράδειγμα. Το σημείο επαφής είναι η λαβή και η τροχιά είναι η κατεύθυνση στην οποία ανοίγει. «Αφού παρακολουθήσει πολλά βίντεο με ανθρώπους που ανοίγουν συρτάρια», σημειώνει η CMU, «το ρομπότ μπορεί να καθορίσει πώς να ανοίξει οποιοδήποτε συρτάρι».

Προφανώς δεν συμπεριφέρονται όλα τα συρτάρια με τον ίδιο τρόπο. Οι άνθρωποι έχουν γίνει αρκετά καλοί στο άνοιγμα των συρταριών, αλλά αυτό δεν σημαίνει ότι το περιστασιακά περίεργα κατασκευασμένο ντουλάπι δεν θα μας προβληματίσει. Ένα από τα βασικά κόλπα για τη βελτίωση των αποτελεσμάτων είναι η δημιουργία μεγαλύτερων συνόλων δεδομένων για εκπαίδευση. Η CMU βασίζεται σε βίντεο από βάσεις δεδομένων όπως το Epic Kitchens και το Ego4D, το τελευταίο από τα οποία έχει «σχεδόν 4.000 ώρες εγωκεντρικών βίντεο καθημερινών δραστηριοτήτων από όλο τον κόσμο».

Ο Bahl σημειώνει ότι υπάρχει ένα τεράστιο αρχείο πιθανών δεδομένων εκπαίδευσης που περιμένουν να παρακολουθηθούν. «Χρησιμοποιούμε αυτά τα σύνολα δεδομένων με έναν νέο και διαφορετικό τρόπο», σημειώνει ο ερευνητής. «Αυτή η εργασία θα μπορούσε να επιτρέψει στα ρομπότ να μάθουν από τον τεράστιο όγκο των διαθέσιμων βίντεο στο Διαδίκτυο και στο

».


techcrunch.com



You might also like


Leave A Reply



Cancel Reply

Your email address will not be published.