Το Claude 2.1 LLM της Anthropic παραμένει κατώτερο από το GPT-4 του OpenAI στην ανάκληση περιβάλλοντος



Αυτή δεν είναι επενδυ

κή συμβουλή. Ο συγγραφέας δεν έχει θέση σε καμία από τις μετοχές που αναφέρονται. Το Wccftech.com έχει πολιτική αποκάλυψης και δεοντολογίας.

Η περιορισμένη ικανότητα των τρεχουσών επαναλήψεων των Μεγάλων Γλωσσικών Μοντέλων (LLM) να κατανοούν αυξανόμενους φόρτους περιβάλλοντος παραμένει ένα από τα μεγαλύτερα εμπόδια αυτή τη στιγμή για την επίτευξη της μοναδικότητας της τεχνητής νοημοσύνης – ένα όριο στο οποίο η τεχνητή νοημοσύνη ξεπερνά αποδεδειγμένα την ανθρώπινη νοημοσύνη. Με την πρώτη ματιά, το παράθυρο περιβάλλοντος 200K για το Claude 2.1 LLM της Anthropic φαίνεται εντυπωσιακό. Ωστόσο, η επάρκειά του στην ανάκληση περιβάλλοντος αφήνει πολλά επιθυμητά, ειδικά σε σύγκριση με τις σχετικά ισχυρές ικανότητες ανάκλησης του GPT-4 του OpenAI.

Η Anthropic ανακοίνωσε χθες ότι το τελευταίο της Claude 2.1 LLM υποστηρίζει τώρα ένα “κορυφαίο στον κλάδο” παράθυρο περιβάλλοντος 200.000 tokens, ενώ προσφέρει 2 φορές μείωση στις παραισθήσεις μοντέλων – μια κατάσταση όπου ένα μοντέλο παρ

ς τεχνητής νοημοσύνης αντιλαμβάνεται ανύπαρκτα μοτίβα ή αντικείμενα συχνά ως αποτέλεσμα ασαφείς ή αντιφατικές πληροφορίες, παρέχοντας ένα ανακριβές ή παράλογο αποτέλεσμα.

Προς όφελος όσων μπορεί να μην το γνωρίζουν, ένα διακριτικό είναι μια βασική μονάδα κειμένου ή κώδικα που χρησιμοποιούν οι LLM για την επεξεργασία και τη δημιουργία γλώσσας. Ανάλογα με τη μέθοδο δημιουργίας διακριτικών που χρησιμοποιείται, ένα διακριτικό μπορεί να είναι χαρακτήρας, λέξη, δευτερεύουσα λέξη ή ένα ολόκληρο τμήμα κειμένου ή κώδικα. Το διευρυμένο παράθυρο περιβάλλοντος του Claude 2.1 επιτρέπει στο LLM να κατανοήσει και να επεξεργαστεί ένα βιβλίο σχεδόν 470 σελίδων.

Φυσικά, το παράθυρο περιβάλλοντος 200K του Claude 2.1 της Anthropic είναι αρκετά εντυπωσιακό σε σύγκριση με το GPT-4 του OpenAI, το οποίο υποστηρίζει μόνο ένα παράθυρο 128K-token. Ωστόσο, η πραγματική εφαρμογή αυτού του διευρυμένου παραθύρου περιβάλλοντος χάνει μέρος της λάμψης της αν σκεφτεί κανείς τη λιγότερο από εντυπωσιακή ικανότητα του Claude 2.1 να ανακαλεί το πλαίσιο.

Ανάκληση περιβάλλοντος: Anthropic’s Claude 2.1 εναντίον GPT-4 του OpenAI

Ο ειδικός της τεχνητής νοημοσύνης Greg Kamradt έβαλε πρόσφατα το Claude 2.1 με το GPT-4 μέσω μιας τυποποιημένης δοκιμής που είχε ως στόχο να προσδιορίσει πόσο με ακρίβεια ένα συγκεκριμένο μοντέλο ανακαλούσε ένα συγκεκριμένο στοιχείο ενσωματωμένο σε διαφορετικά βάθη διέλευσης.

Συγκεκριμένα, ο Kamradt ενσωμάτωσε το ακόλουθο κείμενο σε διαφορετικά βάθη αποσπασμάτων:

«Το καλύτερο πράγμα που μπορείτε να κάνετε στο Σαν Φρανσίσκο είναι να φάτε ένα σάντουιτς και να καθίσετε στο πάρκο Dolores μια ηλιόλουστη μέρα».

Ο ερευνητής χώρισε το κείμενο εισαγωγής του σε 35 ίσα μέρη και στη συνέχεια τοποθέτησε το παραπάνω γεγονός σε καθένα από αυτά τα 35 βάθη, ζητώντας από τον Claude 2.1 να απαντήσει σε μια σχετική ερώτηση κάθε φορά. Ο ερευνητής διαφοροποίησε επίσης το παράθυρο περιβάλλοντος, το οποίο κυμαινόταν από 1K διακριτικά μέχρι 200K διακριτικά, χωρισμένα σε 35 ίσες προσαυξήσεις. Πηγαίνετε σε αυτό

Χ ανάρτηση

για περισσότερες λεπτομέρειες σχετικά με τη μεθοδολογία που χρησιμοποιήθηκε.

Claude-2.1-

-Results

Παραπάνω, θα βρείτε με πόσο ακρίβεια το Anthropic’s Claude 2.1 μπόρεσε να ανακαλέσει το ενσωματωμένο γεγονός σε δεδομένο βάθος εγγράφου και μήκος παραθύρου περιβάλλοντος. Κάθε κόκκινο μπλοκ αντιπροσωπεύει μια αποτυχία ανάκλησης. Όπως είναι προφανές από το παραπάνω απόσπασμα, η ικανότητα ανάκλησης του LLM μειώνεται σταδιακά καθώς αυξάνεται το παράθυρο περιβάλλοντος.

Αποτελέσματα δοκιμής GPT-4

Για σύγκριση, τα αποτελέσματα μιας παρόμοιας δοκιμής που διεξήχθη με το GPT-4 του OpenAI εμφανίζονται παραπάνω. Εδώ, το βάθος στο οποίο ενσωματώθηκε το γεγονός καθώς και το παράθυρο περιβάλλοντος του LLM άλλαξαν σε 15 διακριτές προσαυξήσεις. Προχωρήστε σε αυτό

Χ ανάρτηση

για περισσότερες λεπτομέρειες.

Σημειώστε τις ουσιαστικά λιγότερες αποτυχίες ανάκλησης 100% του GPT-4 στο μέγιστο μήκος παραθύρου περιβάλλοντος των 128K διακριτικών.

Είχαμε σημειώσει σε προηγούμενη ανάρτηση ότι το GPT-4 ξεπέρασε τα LLM του xAI Grok και του Claude 2 του Anthropic σε μια μακροχρόνια εξέταση μαθηματικών. Μένει να δούμε πώς αποδίδει το Claude 2.1 έναντι του GPT-4 στην ίδια ρύθμιση.


VIA:

wccftech.com


Leave A Reply



Cancel Reply

Your email address will not be published.