Το Grok AI του Elon Musk εκτονώνει κάθε άλλο μοντέλο απαντώντας σε ερωτήσεις μαθηματικών εκτός από το GPT-4



Αυτή δεν είναι επενδυ

κή συμβουλή. Ο συγγραφέας δεν έχει θέση σε καμία από τις μετοχές που αναφέρονται. Το Wccftech.com έχει πολιτική

ς και δεοντολογίας.

Καθώς η xAI ετοιμαζόταν να αποκαλύψει το πρώτο της μοντέλο Large Language (LLM) που ονομάζεται Grok, ο

Musk δήλωσε ευθαρσώς ότι το γενετικό μοντέλο AI «από ορισμένες σημαντικές απόψεις» ήταν το «καλύτερο που υπάρχει αυτή τη στιγμή». Τώρα, έχουμε επιτέλους τα δεδομένα για να αποδείξουμε αυτόν τον ισχυρισμό.

Ο Kieran Paster, ερευνητής στο Πανεπιστήμιο του Τορόντο, έβαλε πρόσφατα μια σειρά μοντέλων τεχνητής νοημοσύνης στους παροιμιώδεις ρυθμούς τους με

δοκιμή

τους σε μια μακροχρόνια εξέταση μαθηματικών. Λάβετε υπόψη ότι οι ερωτήσεις που μένουν εκτός λειτουργίας, στη γλώσσα της ανάλυσης δεδομένων, είναι αυτές που δεν αποτελούν μέρος του συνόλου δεδομένων που χρησιμοποιείται για την εκπαίδευση ενός μοντέλου τεχνητής νοημοσύνης. Ως εκ τούτου, ένα δεδομένο LLM πρέπει να αξιοποιήσει την προηγούμενη εκπαίδευση και τις δεξιότητές του επίλυσης προβλημάτων για να ανταποκριθεί σε τέτοια ερεθίσματα. Στη συνέχεια, ο Πάστερ βαθμολόγησε με το χέρι τις απαντήσεις κάθε μοντέλου.

Η απόδοση του Grok AI στην Εξεταστική Εξέταση Μαθηματικών

Όπως φαίνεται από το παραπάνω απόσπασμα, ο Grok ξεπέρασε κάθε άλλο LLM, συμπεριλαμβανομένου του Claude 2 του Anthropic, με εξαίρεση το GPT-4 του OpenAI, κερδίζοντας συνολική βαθμολογία 59 τοις εκατό έναντι 68 τοις εκατό για το GPT-4.

Οι επιδόσεις του Grok AI στο GSM8k εναντίον της Εξεταστικής Εξέτασης Μαθηματικών

Στη συνέχεια, ο Πάστερ έκανε μόχλευση

δοκιμή του xAI

διάφορων LLM στο GSM8k, ένα σύνολο δεδομένων μαθηματικών προβλημάτων λέξεων που είναι προσανατολισμένα στο γυμνάσιο, για να σχεδιάσουν την απόδοση αυτών των LLM στην παρατεταμένη εξέταση μαθηματικών σε σχέση με την απόδοσή τους στο GSM8k.

Είναι ενδιαφέρον ότι ενώ το ChatGPT-3.5 του OpenAI λαμβάνει υψηλότερη βαθμολογία από το Grok στο GSM8k, καταφέρνει να εξασφαλίσει μόνο το ήμισυ της βαθμολογίας του Grok στην μακροχρόνια εξέταση μαθηματικών. Ο Paster χρησιμοποιεί αυτό το αποτέλεσμα για να δικαιολογήσει το συμπέρασμά του ότι η υπεραπόδοση του ChatGPT-3.5 στο GSM8k είναι απλώς αποτέλεσμα

υπερπροσαρμογή

, το οποίο συμβαίνει όταν ένα LLM δίνει ακριβή

για τα δεδομένα εισόδου που χρησιμοποιούνται στην εκπαίδευσή του αλλά όχι για νέα δεδομένα. Για παράδειγμα, ένα μοντέλο τεχνητής νοημοσύνης που έχει εκπαιδευτεί να αναγνωρίζει εικόνες που περιέχουν σκύλους και έχει εκπαιδευτεί σε ένα σύνολο δεδομένων εικόνων που δείχνουν σκύλους σε ένα πάρκο, μπορεί να χρησιμοποιήσει το γρασίδι ως χαρακτηριστικό αναγνώρισης για να δώσει την περιζήτητη σωστή απάντηση.

Αν εξαιρέσουμε όλα τα μοντέλα που πιθανώς υποφέρουν από υπερβολική τοποθέτηση, το Grok κατατάσσεται στην εντυπωσιακή τρίτη θέση στο GSM8k, πίσω μόνο από το Claude 2 και το GPT-4. Αυτό υποδηλώνει ότι οι δυνατότητες συμπερασμάτων του Grok είναι αρκετά ισχυρές.

Φυσικά, ένας κρίσιμος περιορισμός στη σύγκριση αυτών των μοντέλων είναι η έλλειψη πληροφοριών σχετικά με τον αριθμό των παραμέτρων εκπαίδευσης που χρησιμοποιήθηκαν για την εκπαίδευση των GPT-4, Claude 2 και Grok. Αυτές οι παράμετροι είναι οι διαμορφώσεις και οι συνθήκες που διέπουν συλλογικά τη διαδικασία μάθησης ενός LLM. Κατά γενικό κανόνα, όσο μεγαλύτερος είναι ο αριθμός των παραμέτρων, τόσο πιο περίπλοκο είναι ένα μοντέλο τεχνητής νοημοσύνης.

Ως άλλη διάκριση, ο Γκροκ έχει προφανώς ένα απαράμιλλο έμφυτο “

αφή

” για

. Σύμφωνα με τις πρώτες εντυπώσεις των δοκιμαστών beta του LLM, ο Grok του xAI μπορεί να διακρίνει μεταξύ διαφόρων προκαταλήψεων που θα μπορούσαν να δώσουν χρωματική απόχρωση. Αυτό είναι πιθανότατα ένα άμεσο αποτέλεσμα της εκπαίδευσης του Grok στα δεδομένα που προέρχονται από το X.


VIA:

wccftech.com


Leave A Reply



Cancel Reply

Your email address will not be published.