Πώς ένα μωρό με κάμερα κεφαλής δίδαξε την τεχνητή νοημοσύνη να μαθαίνει λέξεις
Οι
ερευνητές
τεχνητής νοημοσύνης κατάφεραν να δημιουργήσουν με επιτυχία ένα μοντέλο μηχανικής
μάθηση
ς ικανό να μαθαίνει λέξεις χρησιμοποιώντας πλάνα που κατέγραψε ένα μικρό παιδί που φορούσε κάμερα κεφαλής. Τα ευρήματα,
δημοσιεύθηκε αυτή την εβδομάδα στο
Επιστήμη
θα μπορούσε να ρίξει νέο φως σ
του
ς τρόπους με τους οποίους τα παιδιά μαθαίνουν τη γλώσσα και ενδεχομένως να ενημερώσει τις προσπάθειες των ερευνητών να δημιουργήσουν μελλοντικά μοντέλα μηχανικής μάθησης που θα μαθαίνουν περισσότερα σαν άνθρωποι.
Προηγούμενη έρευνα εκτιμά ότι τα παιδιά τείνουν να ξεκινούν
αποκτώντας τις πρώτες τους λέξεις περίπου στην ηλικία των 6 έως 9 μηνών
. Μέχρι τα δεύτερα γενέθλιά του, το μέσο παιδί κατέχει
περίπου 300 λέξεις στην εργαλειοθήκη λεξιλογίου τους
. Αλλά η πραγματική μηχανική που στηρίζει ακριβώς το πώς τα παιδιά συνδέουν το νόημα με τις λέξεις παραμένει ασαφής και αποτελεί σημείο επιστημονικής συζήτησης. Ερευνητές από το Κέντρο Επιστήμης Δεδομένων του Πανεπιστημίου της Νέας Υόρκης προσπάθησαν να εξερευνήσουν περαιτέρω αυτή τη γκρίζα περιοχή δημιουργώντας ένα μοντέλο τεχνητής νοημοσύνης που προσπαθούσε να μάθει με τον ίδιο τρόπο που μαθαίνει ένα παιδί.
Για να εκπαιδεύσουν το μοντέλο, οι ερευνητές βασίστηκαν σε πάνω από 60 ώρες εγγραφών βίντεο και
ήχου
που τραβήχτηκαν από μια ελαφριά κάμερα κεφαλής που ήταν δεμένη σε ένα παιδί που ονομάζεται Sam.
Το
νήπιο φορούσε την κάμερα από την ηλικία των έξι μηνών και μέχρι τα δεύτερα γενέθλιά του. Κατά τη διάρκεια αυτών των 19 μηνών, η κάμερα συγκέντρωσε πάνω από 600.000 καρέ βίντεο συνδεδεμένα με περισσότερες από 37.500 μεταγραφείς εκφράσεις από κοντινούς ανθρώπους. Η συνομιλία στο φόντο και τα καρέ βίντεο που τραβήχτηκαν από την κάμερα κεφαλής παρέχουν μια ματιά στην εμπειρία ενός αναπτυσσόμενου παιδιού καθώς τρώει, παίζει και γενικά βιώνει τον κόσμο γύρω του.
Credit: Βίντεο ευγενική προσφορά του μπαμπά του Sam
.
Οπλισμένοι με τα μάτια και τα αυτιά του Σαμ, οι ερευνητές δημιούργησαν στη συνέχεια ένα μοντέλο νευρωνικού δικτύου για να προσπαθήσουν να κατανοήσουν αυτό που έβλεπε και άκουγε ο Σαμ. Το μοντέλο, το οποίο είχε μια ενότητα που αναλύει μεμονωμένα καρέ που λήφθηκαν από την κάμερα και μια άλλη εστίαζε σε μεταγραμμένη ομιλία κατευθείαν προς τον Sam, ήταν αυτοεποπτευόμενο, πράγμα που σημαίνει ότι δεν χρησιμοποιούσε εξωτερικές ετικέτες δεδομένων για την αναγνώριση αντικειμένων. Όπως ένα παιδί, το μοντέλο έμαθε συνδέοντας λέξεις με συγκεκριμένα αντικείμενα και γραφικά όταν συνέβαιναν ταυτόχρονα.
Πίστωση: Wai Keen Vong
«Χρησιμοποιώντας μοντέλα τεχνητής νοημοσύνης για τη μελέτη του πραγματικού προβλήματος εκμάθησης γλωσσών που αντιμετωπίζουν τα παιδιά, μπορούμε να αντιμετωπίσουμε κλασικές συζητήσεις σχετικά με τα συστατικά που χρειάζονται τα παιδιά για να μάθουν λέξεις—είτε χρειάζονται προκαταλήψεις για τη γλώσσα, έμφυτη γνώση ή απλώς συνειρμική μάθηση για να προχωρήσουν. », δήλωσε ο συν-συγγραφέας της εργασίας και καθηγητής του Κέντρου Επιστήμης Δεδομένων του NYU, Brenden Lake, σε μια δήλωση. «Φαίνεται ότι μπορούμε να πάρουμε περισσότερα με τη μάθηση από ό,τι πιστεύεται συνήθως».
Οι ερευνητές δοκίμασαν το μοντέλο με τον ίδιο τρόπο που οι επιστήμονες αξιολογούν τα παιδιά. Οι ερευνητές παρουσίασαν στο μοντέλο τέσσερις εικόνες που τραβήχτηκαν από το σετ προπόνησης και του ζήτησαν να επιλέξει ποια ταιριάζει με μια δεδομένη λέξη όπως «μπάλα» «κούνια» ή «δέντρο». Το μοντέλο ήταν επιτυχημένο στο 61,6% των περιπτώσεων. Το μοντέλο που εκπαιδεύτηκε με βρεφική κάμερα προσέγγισε ακόμη και παρόμοια επίπεδα ακρίβειας με ένα ζευγάρι ξεχωριστών μοντέλων τεχνητής νοημοσύνης που εκπαιδεύτηκαν με πολλές περισσότερες εισαγωγές γλώσσας. Ακόμη πιο εντυπωσιακό, το μοντέλο μπόρεσε να αναγνωρίσει σωστά ορισμένες εικόνες που δεν περιλαμβάνονταν στο σύνολο δεδομένων της κάμερας κεφαλής του Sam, γεγονός που υποδηλώνει ότι ήταν σε θέση να μάθει από τα δεδομένα στα οποία εκπαιδεύτηκε και να τα χρησιμοποιήσει για να κάνει πιο γενικευμένες παρατηρήσεις.
«Αυτά τα ευρήματα υποδηλώνουν ότι αυτή η πτυχή της εκμάθησης λέξεων είναι εφικτή από το είδος των νατουραλιστικών δεδομένων που λαμβάνουν τα παιδιά ενώ χρησιμοποιούν σχετικά γενικούς μηχανισμούς μάθησης, όπως αυτοί που βρίσκονται στα νευρωνικά δίκτυα», είπε ο Λέικ.
Με άλλα λόγια, η ικανότητα του μοντέλου AI να εντοπίζει με συνέπεια αντικείμενα χρησιμοποιώντας μόνο δεδομένα από την κάμερα κεφαλής δείχνει πώς η αντιπροσωπευτική μάθηση ή απλά η σύνδεση οπτικών με ταυτόχρονες λέξεις φαίνεται να είναι αρκετή για να μάθουν τα παιδιά και να αποκτήσουν λεξιλόγιο.
Τα ευρήματα υποδεικνύουν μια εναλλακτική μέθοδο εκπαίδευσης της τεχνητής νοημοσύνης
Κοιτάζοντας στο μέλλον, τα ευρήματα των ερευνητών του NYU θα μπορούσαν να αποδειχθούν πολύτιμα για τους μελλοντικούς προγραμματιστές τεχνητής νοημοσύνης που ενδιαφέρονται να δημιουργήσουν μοντέλα τεχνητής νοημοσύνης που μαθαίνουν με τρόπους παρόμοιους με τους ανθρώπους. Η βιομηχανία τεχνητής νοημοσύνης και οι επιστήμονες υπολογιστών χρησιμοποιούν εδώ και καιρό
ανθρώπινη σκέψη και νευρωνικά μονοπάτια ως έμπνευση για την κατασκευή συστημάτων AI
.
Πρόσφατα, μεγάλα γλωσσικά μοντέλα, όπως τα μοντέλα GPT του OpenAI ή το Bard της Google, έχουν αποδειχθεί ικανά να γράφουν χρήσιμα δοκίμια, να δημιουργούν κώδικα και περιοδικά να παραβιάζουν γεγονότα χάρη σε μια εντατική περίοδο εκπαίδευσης όπου τα μοντέλα εισάγουν δεδομένα αξίας τρισεκατομμυρίων παραμέτρων που αντλούνται από σύνολα δεδομένων μαμούθ. Τα ευρήματα του NYU, ωστόσο, υποδηλώνουν ότι μπορεί να είναι δυνατή μια εναλλακτική μέθοδος απόκτησης λέξεων. Αντί να βασιζόμαστε σε σωρούς δυνητικά προστατευμένων ή μεροληπτικών εισροών που προστατεύονται από πνευματικά δικαιώματα, ένα μοντέλο τεχνητής νοημοσύνης που μιμείται τον τρόπο που μαθαίνουν οι άνθρωποι όταν ανιχνεύουμε και σκοντάφτουμε σε όλο τον κόσμο θα μπορούσε να προσφέρει μια εναλλακτική διαδρομή προς την αναγνώριση της γλώσσας.
«Έμεινα έκπληκτος πόσο πολύ μπορούν να μάθουν τα σημερινά συστήματα τεχνητής νοημοσύνης όταν εκτίθενται σε έναν ελάχιστο όγκο δεδομένων του είδους που πραγματικά λαμβάνει ένα παιδί όταν μαθαίνει μια γλώσσα», είπε ο Λέικ.
VIA:
popsci.com

