Παρακολουθήστε τον Rupert, ένα AI, Learn to Play Super Mario Live στο TikTok

Στο TikTo

κ, ανάμεσα στα

«ετοιμαστείτε μαζί μου», τα

hacks και τα μιμίδια, μερικά ρομπότ εργάζονται πάνω σε μια πρόκληση που πολλοί από εμάς έχουμε αντιμετωπίσει κάποια στιγμή στη ζωή μας: τον ξυλοδαρμό

Super Mario World

. Την περασμένη εβδομάδα, οι χρήστες ήταν

live streaming an

AI

προσπαθεί να μάθει να παίζει Mario, και για


ένα ρομπότ συγκεκριμένα


, πάει καλά. Το όνομά του είναι Rupert και μόλις κέρδισε το επίπεδο 2.

Η στρατηγική του AI θα είναι οικεία σε όποιον θυμάται την πρώτη φορά που χρησιμοποιούσε ένα χειριστήριο Super Nintendo. Ο Ρούπερτ τρέχει, πηδά, χτυπά εχθρούς, πέφτει από γκρεμούς και πεθαίνει — ξανά, ξανά και ξανά.

Κάθε φορά που πεθαίνει,

Ο Ρούπερτ προσπαθεί ξανά. Συνήθως, κάνει σχεδόν τις ίδιες ακριβώς κινήσεις που το σκότωσαν στον τελευταίο γύρο. Αλλά αν παρακολουθήσετε αρκετό καιρό, θα παρατηρήσετε ότι ο Ρούπερτ εξελίσσεται και

Βελτιώνομαι. Το’

μάθηση.

«Είναι ένα πρόγραμμα που έχει φτιαχτεί για να προσομοιώνει τη φυσική επιλογή με νευρωνικά δίκτυα», δήλωσε ο Join The PCMasterRace, ο χρήστης του TikTok που είναι υπεύθυνος για τον Rupert, ο οποίος ζήτησε να μην χρησιμοποιηθεί το πραγματικό του όνομα. (Το PCMasterRace είναι το απαράδεκτο όνομα ενός subreddit σχετικά με επιτραπέζιους υπολογιστές.)

Με άλλα λόγια, ο Rupert είναι ένα σύστημα αλγορίθμων μηχανικής μάθησης που βελτιώνεται παρακολουθώντας τα δικά του λάθη. Ο Ρούπερτ έχει έναν καθορισμένο στόχο: να φτάσει στην άλλη άκρη του επιπέδου. Ξέρει ποια κουμπιά μπορεί να πατήσει και μπορεί να δει τι συμβαίνει στην οθόνη. (Μπορείτε πραγματικά να δείτε αυτό που βλέπει ο Ρούπερτ

s” στο επάνω αριστερό μέρος του παρακάτω βίντεο.) Αλλά σε αντίθεση με έναν άνθρωπο χειριστή Mario, μια τεχνητή νοημοσύνη δεν μπορεί απλώς να κάνει υποθέσεις ότι θα πρέπει να αποφύγει τον Koopas ή να προσπαθήσει να μην πέσει από μια προεξοχή. Το μόνο που έχει ο Ρούπερτ είναι θετικά και αρνητικά σχόλια. Ουσιαστικά, ο Ρούπερτ δοκιμάζει τα πράγματα στην τύχη. Θυμάται τι έκανε και τι δεν λειτούργησε και η στρατηγική του βελτιώνεται με την πάροδο του χρόνου.



Ο Ρούπερτ είναι

διαμορφωμένο σύμφωνα με την

με την έννοια ότι λειτουργεί χρησιμοποιώντας «είδη» και «γενιές». Το AI δοκιμάζει μια συγκεκριμένη στρατηγική για κάθε είδος, η οποία διαρκεί περίπου δύο έως έξι διαδρομές. Για κάθε 50-100 είδη, το AI συγκεντρώνει όσα έμαθε σε μια «γενιά».

Καθώς η τεχνητή νοημοσύνη παίζει, παίρνει μια βαθμολογία “

ς”. Η φυσική κατάσταση ανεβαίνει ανάλογα με το πόσο μακριά

Ο Mario πηγαίνει στα δεξιά και τόσο πιο γρήγορα

φτάνει εκεί. Οι γενιές με υψηλότερη φυσική κατάσταση επιλέγονται για να «αναπαραχθούν» για τις μελλοντικές γενιές, πράγμα που σημαίνει ότι η τεχνητή νοημοσύνη βασίζεται στη συμπεριφορά και τα μοτίβα που λειτούργησαν και ξεκινά από νέα. Αυτό επιτρέπει τη λήψη των αποφάσεών του να γίνεται πιο περίπλοκη και πιο περίπλοκη με την πάροδο του χρόνου.

Είναι αργά, αλλά λειτουργεί. Χρειάστηκαν μόνο 57 γενιές στον Rupert για να νικήσει το επίπεδο ένα, προκαλώντας πανηγυρισμούς στα σχόλια καθώς οι θεατές επευφημούσαν την επιτυχία του Rupert.

Ο Ρούπερτ, μαζί με έναν άλλο παίκτη AI Mario που μεταδίδει το TikTok με το στοργικό όνομα


Γεώργιος


, εκτελεί ένα πρόγραμμα ανοιχτού κώδικα που ονομάζεται MarI/O. Κατασκευάστηκε από τον κωδικοποιητή και live streaming Seth Hendrickson, ο οποίος περνάει


SethBling


Σε σύνδεση. Το MarI/O δεν είναι καινούργιο. Ο Hendrickson το κυκλοφόρησε πριν από χρόνια, αλλά οι μηχανορραφίες του ρομπότ έχουν ανανεωμένη σημασία σε μια εποχή όπου η βιομηχανία της τεχνολογίας θέλει να πιστεύουμε ότι η τεχνητή νοημοσύνη θα αναλάβει σύντομα

ο κόσμος.

Το MarI/O είναι πολύ πιο απλοϊκό από ένα σύστημα όπως το ChatGPT, αλλά είναι ένα παράθυρο στο πώς

Μοντέλα AI


δουλειά

. Αυτά τα εργαλεία τεχνητής νοημοσύνης πετάνε σπαγγέτι στον τοίχο και οι άνθρωποι σχεδιάζουν συστήματα για να τους πουν εάν αυτή η προσπάθεια ήταν καλύτερη ή χειρότερη από την προηγούμενη. Όσο περνάει ο καιρός, οι προσπάθειες γίνονται καλύτερες. Τώρα φανταστείτε ότι συμβαίνει εκατομμύρια ή δισεκατομμύρια φορές. Μπορείτε να δείτε μια πιο λεπτομερή επεξήγηση σε ένα από τα βίντεο του Hendrickson:





MarI/O – Machine Learning για βιντεοπαιχνίδια

Με

Το ChatGPT, είναι εκθετικά πιο περίπλοκο. Το MarI/O δεν έχει τόσες πολλές επιλογές: αριστερά, δεξιά, πάνω, κάτω, A, B, X και Y. Η αγγλική γλώσσα, από την άλλη πλευρά, έχει εκατοντάδες χιλιάδες λέξεις, αμέτρητους τρόπους τακτοποιήστε αυτές τις λέξεις και έναν θεωρητικά άπειρο αριθμό ιδεών. Το MarI/O είναι πολύ πιο απλό από το ChatGPT

—και η τεχνολογία είναι θεμελιωδώς διαφορετική—αλλά αν καταλάβετε πώς λειτουργεί το MarI/O,

μπορείτε να το κάνετε παρέκταση για μια χρήσιμη κατανόηση της τεχνολογίας

.

Ο Ρούπερτ, δυστυχώς, είναι απλώς ένας μικρός τύπος. Κάνει το καλύτερό του, αλλά ο Ρούπερτ θα έχει πρόβλημα όταν φτάσει πιο μακριά στο παιχνίδι. Το σύστημα του MarI/O ανταμείβεται μόνο με βάση το πόσο μακριά φτάνει ο Mario στα δεξιά της οθόνης, αλλά σε ορισμένα επίπεδα στον κόσμο του Super Mario, πρέπει να ανεβείτε για να φτάσετε στον στόχο, αντί να πάτε δεξιά.

“Ωστόσο, σκοπεύω να το τροποποιήσω ώστε να μπορεί να αναρριχηθεί καλύτερα σε κάθετες δομές”, δήλωσε ο Join the PCMasterRace.



gizmodo.com


Leave A Reply



Cancel Reply

Your email address will not be published.