Μια στατιστικά σημαντική δοκιμή αποδεικνύει ότι το GPT-4 Turbo του OpenAI είναι ιδιαίτερα τεμπέλης κατά τις χειμερινές διακοπές

By

Marizas Dimitris

On

Δεκ 12, 2023

Αυτή δεν είναι επενδυτική συμβουλή. Ο συγγραφέας δεν έχει θέση σε καμία από τις μετοχές που αναφέρονται. Το Wccftech.com έχει πολιτική αποκάλυψης και δεοντολογίας.

Μην ζητάτε από το πιο προηγμένο Large Language Model (LLM) του OpenAI, το GPT-4 Turbo, να εκτελέσει εξαντλητικές εργασίες αυτόν τον χειμώνα. Αυτό είναι το συμπέρασμα που μπορεί κανείς να βγάλει άνετα από ένα πρόσφατο στατιστικά σημαντικό τεστ που διεξήχθη από έναν λάτρη του LLM.

Το OpenAI ισχυρίζεται ότι το GPT-4 Turbo είναι ικανό να χειρίζεται εξαιρετικά περίπλοκες εργασίες που περικλείονται σε ένα μόνο μήνυμα, χάρη στην πολύ πιο εξαντλητική εκπαίδευσή του. Το

μοντέλο

είναι επίσης ικανό να επεξεργαστεί 128.000 μάρκες χάρη στο διευρυμένο παράθυρο περιβάλλοντος κουπονιού, ένα μέτρο του πλούτου ή του βάθους εισόδου και εξόδου ενός συγκεκριμένου LLM. Ως ανανέωση, 1.000 μάρκες ισοδυναμούν περίπου με 750 λέξεις. Αυτό σημαίνει ότι η πιο πρόσφατη

προσφορά

του OpenAI είναι ικανή να επεξεργαστεί μια εισ

αγωγή

περίπου 96.000 λέξεων.

@ChatGPTapp

@OpenAI

@tszzl

@emollick

@voooooogel

Άγριο αποτέλεσμα. Το gpt-4-turbo πάνω από το API παράγει (στατιστικά σημαντικές) πιο σύντομες ολοκληρώσεις όταν “νομίζει” τον Δεκέμβριο του έναντι όταν πιστεύει ότι είναι Μάιος (όπως καθορίζεται από την ημερομηνία στην προτροπή του συστήματος).

Δέχτηκα την ίδια ακριβώς προτροπή…

pic.twitter.com/mA7sqZUA0r

— Rob Lynch (@RobLynch99)

11 Δεκεμβρίου 2023

Πρόσφατα, ο Rob Lynch, ένας λάτρης του LLM, έβαλε το GPT-4 Turbo στους παροιμιώδεις ρυθμούς του. Προς απόλυτη έκπληξή του, το LLM παράγει μια πιο σύντομη απάντηση όταν πιστεύει ότι ο τρέχων μήνας είναι ο Δεκέμβριος έναντι όταν του ζητείται να πιστέψει ότι είναι Μάιος.

Συγκεκριμένα, η Lynch μπόρεσε να αποκτήσει μια μέση έξοδο 4.298 tokens σε 477 δοκιμαστικές

σειρές

από το GPT-4 Turbo όταν κλήθηκε να πιστέψει ότι ο τρέχων μήνας ήταν ο Μάιος. Για τον Δεκέμβριο, το LLM έδωσε σημαντικά μικρότερη μέση απόδοση 4.086 μάρκες, που ισοδυναμεί με μείωση της παραγωγικότητας περίπου 5%.

OMG, η υπόθεση Winter Break AI μπορεί να είναι αλήθεια;

Υπήρχε κάποια αδρανής εικασία ότι το GPT-4 θα μπορούσε να έχει χειρότερη απόδοση τον Δεκέμβριο επειδή «έμαθε» να κάνει λιγότερη δουλειά κατά τη διάρκεια των διακοπών.

Ακολουθεί μια στατιστικά σημαντική δοκιμή που δείχνει ότι αυτό μπορεί να ισχύει. Τα LLM είναι περίεργα.🎅

https://t.co/mtCY3lmLFF

— Ethan Mollick (@emollick)

11 Δεκεμβρίου 2023

Ενώ ρίχνει φως στην πιθανή αιτία πίσω από αυτήν την ασυμφωνία, ο Ethan Mollick, καθηγητής στο Wharton, πιστεύει ότι το GPT-4 Turbo έμαθε από την ανθρώπινη τάση να κάνει λιγότερη δουλειά τον Δεκέμβριο που είναι έντονος για διακοπές. Αυτό υποδηλώνει επίσης ότι αυτά τα LLM, παρά τις εξαντλητικές προσπάθειες για την αποφυγή της εισβολής επιβλαβών ανθρώπινων προκαταλήψεων, εξακολουθούν να είναι επιρρεπή στο να κληρονομήσουν μερικές από τις πιο περίεργες ανθρώπινες ελλείψεις χάρη στη διείσδυση δεδομένων εκπαίδευσης.

Αυτή η εξέλιξη έρχεται μετά από μια άλλη που πρότεινε ότι το μοντέλο GPT του OpenAI γινόταν σταδιακά πιο νωχελικό, καταφεύγοντας σε συντομεύσεις αντί να δίνει ολοκληρωμένες απαντήσεις σε ερωτήματα. Ορισμένα ανέκδοτα υποδηλώνουν ότι οι χρήστες προσποιούνται ότι είναι ανάπηροι για να βρουν πλήρεις απαντήσεις από το LLM! Η κατάσταση είναι προφανώς αρκετά τραγική για να

προτροπή

OpenAI για να προσπαθήσει να βρει μια επείγουσα επιδιόρθωση.

VIA:

wccftech.com

Παρόμοια άρθρα