Το Grok AI του Elon Musk εκτονώνει κάθε άλλο μοντέλο απαντώντας σε ερωτήσεις μαθηματικών εκτός από το GPT-4
Αυτή δεν είναι επενδυ
τι
κή συμβουλή. Ο συγγραφέας δεν έχει θέση σε καμία από τις μετοχές που αναφέρονται. Το Wccftech.com έχει πολιτική
αποκάλυψη
ς και δεοντολογίας.
Καθώς η xAI ετοιμαζόταν να αποκαλύψει το πρώτο της μοντέλο Large Language (LLM) που ονομάζεται Grok, ο
Elon
Musk δήλωσε ευθαρσώς ότι το γενετικό μοντέλο AI «από ορισμένες σημαντικές απόψεις» ήταν το «καλύτερο που υπάρχει αυτή τη στιγμή». Τώρα, έχουμε επιτέλους τα δεδομένα για να αποδείξουμε αυτόν τον ισχυρισμό.
Ο Kieran Paster, ερευνητής στο Πανεπιστήμιο του Τορόντο, έβαλε πρόσφατα μια σειρά μοντέλων τεχνητής νοημοσύνης στους παροιμιώδεις ρυθμούς τους με
δοκιμή
τους σε μια μακροχρόνια εξέταση μαθηματικών. Λάβετε υπόψη ότι οι ερωτήσεις που μένουν εκτός λειτουργίας, στη γλώσσα της ανάλυσης δεδομένων, είναι αυτές που δεν αποτελούν μέρος του συνόλου δεδομένων που χρησιμοποιείται για την εκπαίδευση ενός μοντέλου τεχνητής νοημοσύνης. Ως εκ τούτου, ένα δεδομένο LLM πρέπει να αξιοποιήσει την προηγούμενη εκπαίδευση και τις δεξιότητές του επίλυσης προβλημάτων για να ανταποκριθεί σε τέτοια ερεθίσματα. Στη συνέχεια, ο Πάστερ βαθμολόγησε με το χέρι τις απαντήσεις κάθε μοντέλου.
Όπως φαίνεται από το παραπάνω απόσπασμα, ο Grok ξεπέρασε κάθε άλλο LLM, συμπεριλαμβανομένου του Claude 2 του Anthropic, με εξαίρεση το GPT-4 του OpenAI, κερδίζοντας συνολική βαθμολογία 59 τοις εκατό έναντι 68 τοις εκατό για το GPT-4.
Στη συνέχεια, ο Πάστερ έκανε μόχλευση
δοκιμή του xAI
διάφορων LLM στο GSM8k, ένα σύνολο δεδομένων μαθηματικών προβλημάτων λέξεων που είναι προσανατολισμένα στο γυμνάσιο, για να σχεδιάσουν την απόδοση αυτών των LLM στην παρατεταμένη εξέταση μαθηματικών σε σχέση με την απόδοσή τους στο GSM8k.
Είναι ενδιαφέρον ότι ενώ το ChatGPT-3.5 του OpenAI λαμβάνει υψηλότερη βαθμολογία από το Grok στο GSM8k, καταφέρνει να εξασφαλίσει μόνο το ήμισυ της βαθμολογίας του Grok στην μακροχρόνια εξέταση μαθηματικών. Ο Paster χρησιμοποιεί αυτό το αποτέλεσμα για να δικαιολογήσει το συμπέρασμά του ότι η υπεραπόδοση του ChatGPT-3.5 στο GSM8k είναι απλώς αποτέλεσμα
υπερπροσαρμογή
, το οποίο συμβαίνει όταν ένα LLM δίνει ακριβή
αποτελέσματα
για τα δεδομένα εισόδου που χρησιμοποιούνται στην εκπαίδευσή του αλλά όχι για νέα δεδομένα. Για παράδειγμα, ένα μοντέλο τεχνητής νοημοσύνης που έχει εκπαιδευτεί να αναγνωρίζει εικόνες που περιέχουν σκύλους και έχει εκπαιδευτεί σε ένα σύνολο δεδομένων εικόνων που δείχνουν σκύλους σε ένα πάρκο, μπορεί να χρησιμοποιήσει το γρασίδι ως χαρακτηριστικό αναγνώρισης για να δώσει την περιζήτητη σωστή απάντηση.
Αν εξαιρέσουμε όλα τα μοντέλα που πιθανώς υποφέρουν από υπερβολική τοποθέτηση, το Grok κατατάσσεται στην εντυπωσιακή τρίτη θέση στο GSM8k, πίσω μόνο από το Claude 2 και το GPT-4. Αυτό υποδηλώνει ότι οι δυνατότητες συμπερασμάτων του Grok είναι αρκετά ισχυρές.
Φυσικά, ένας κρίσιμος περιορισμός στη σύγκριση αυτών των μοντέλων είναι η έλλειψη πληροφοριών σχετικά με τον αριθμό των παραμέτρων εκπαίδευσης που χρησιμοποιήθηκαν για την εκπαίδευση των GPT-4, Claude 2 και Grok. Αυτές οι παράμετροι είναι οι διαμορφώσεις και οι συνθήκες που διέπουν συλλογικά τη διαδικασία μάθησης ενός LLM. Κατά γενικό κανόνα, όσο μεγαλύτερος είναι ο αριθμός των παραμέτρων, τόσο πιο περίπλοκο είναι ένα μοντέλο τεχνητής νοημοσύνης.
Ως άλλη διάκριση, ο Γκροκ έχει προφανώς ένα απαράμιλλο έμφυτο “
αφή
” για
ειδήσεις
. Σύμφωνα με τις πρώτες εντυπώσεις των δοκιμαστών beta του LLM, ο Grok του xAI μπορεί να διακρίνει μεταξύ διαφόρων προκαταλήψεων που θα μπορούσαν να δώσουν χρωματική απόχρωση. Αυτό είναι πιθανότατα ένα άμεσο αποτέλεσμα της εκπαίδευσης του Grok στα δεδομένα που προέρχονται από το X.
VIA:
wccftech.com

