Ένα ζευγάρι νέων μελετών παρουσιάζει μια προβληματική διχοτόμηση για τα μεγάλα γλωσσικά μοντέλα
ChatGPT
του
OpenAI
. Αν και οι δημοφιλείς απαντήσεις του σε γενετικά κείμενα δεν διακρίνονται πλέον από τις ανθρώπινες απαντήσεις
σύμφωνα με
σε πολλές μελέτες και πηγές, το GPT φαίνεται να γίνεται λιγότερο ακριβές με την πάροδο του χρόνου. Ίσως το πιο ανησυχητικό είναι ότι κανείς δεν έχει μια καλή εξήγηση για την ανησυχητική επιδείνωση.
Μια ομάδα από το Στάνφορντ και το UC Berkeley σημείωσε στο α
ερευνητική μελέτη
δημοσίευσε την Τρίτη ότι η συμπεριφορά του ChatGPT έχει αλλάξει αισθητά με την πάροδο του χρόνου — και όχι προς το καλύτερο. Επιπλέον, οι ερευνητές είναι κάπως σε ζημία για ακριβώς
Γιατί
αυτή η υποβάθμιση της ποιότητας απόκρισης συμβαίνει.
Για να εξετάσει τη συνοχή των υποκείμενων προγραμμάτων GPT-3.5 και -4 του ChatGPT, η ομάδα δοκίμασε την τάση του AI να «παρασύρεται», δηλαδή να προσφέρει απαντήσεις με διαφορετικά επίπεδα ποιότητας και ακρίβειας, καθώς και την ικανότητά του να ακολουθεί σωστά τις εντολές. Οι ερευνητές ζήτησαν τόσο από το ChatGPT-3.5 όσο και από το -4 να λύσουν μαθηματικά προβλήματα, να απαντήσουν σε ευαίσθητες και επικίνδυνες ερωτήσεις, να αιτιολογήσουν οπτικά από τις προτροπές και να δημιουργήσουν κώδικα.
[Related: Big Tech’s latest AI doomsday warning might be more of the same hype.]
Σε
την κριτική τους
, η ομάδα διαπίστωσε ότι «Συνολικά… η συμπεριφορά της «ίδιας» υπηρεσίας LLM μπορεί να αλλάξει ουσιαστικά σε σχετικά σύντομο χρονικό διάστημα, υπογραμμίζοντας την ανάγκη για συνεχή παρακολούθηση της ποιότητας LLM». Για παράδειγμα, το
GPT-4
τον Μάρτιο του 2023 εντόπισε πρώτους αριθμούς με ποσοστό ακρίβειας σχεδόν 98 τοις εκατό. Μέχρι τον Ιούνιο, ωστόσο, η ακρίβεια του GPT-4 φέρεται να έπεσε σε λιγότερο από 3 τοις εκατό για την ίδια εργασία. Εν τω μεταξύ, το GPT-3.5 τον Ιούνιο του 2023 βελτίωσε την αναγνώριση του πρώτου αριθμού σε σύγκριση με την έκδοση του Μαρτίου 2023. Όσον αφορά τη δημιουργία κώδικα υπολογιστή, η ικανότητα και των δύο εκδόσεων να δημιουργούν κώδικα υπολογιστή χειροτέρεψε μεταξύ Μαρτίου και Ιουνίου.
Αυτές οι αποκλίσεις θα μπορούσαν να έχουν επιπτώσεις στον πραγματικό κόσμο — και μάλιστα σύντομα. Νωρίτερα αυτό το μήνα, μια εργασία δημοσιεύτηκε στο περιοδικό
JMIR Ιατρική Εκπαίδευση
από μια ομάδα ερευνητών από το NYU υποδεικνύει ότι οι απαντήσεις του ChatGPT σε ερωτήματα που σχετίζονται με την υγειονομική περίθαλψη είναι φαινομενικά δυσδιάκριτες από τους επαγγελματίες ιατρούς όσον αφορά τον τόνο και τη διατύπωση. Οι ερευνητές παρουσίασαν σε 392 άτομα 10 ερωτήσεις και απαντήσεις ασθενών, οι μισές από τις οποίες προέρχονταν από πάροχο ανθρώπινης υγειονομικής περίθαλψης και οι μισοί από το μεγάλο γλωσσικό μοντέλο του OpenAI (LLM). Οι συμμετέχοντες είχαν
«περιορισμένη ικανότητα» να διακρίνει τις απαντήσεις που γράφτηκαν από ανθρώπους και chatbot
. Αυτό έρχεται παράλληλα με τις αυξανόμενες ανησυχίες σχετικά με την ικανότητα του AI να χειρίζεται το απόρρητο των ιατρικών δεδομένων, παράλληλα με την τάση του να «
παραισθήσεις
“Ανακριβείς πληροφορίες..
Οι ακαδημαϊκοί δεν είναι μόνοι που παρατηρούν τις φθίνουσες αποδόσεις του ChatGPT. Οπως και
Business Insider
σημειώνει την Τετάρτη, το φόρουμ προγραμματιστών του OpenAI φιλοξένησε μια συνεχιζόμενη συζήτηση σχετικά με την πρόοδο του LLM—ή την έλλειψή της. «Υπήρξε κάποια επίσημη αντιμετώπιση αυτού του ζητήματος; Ως πελάτης που πληρώνει, από εξαιρετικός βοηθός σεφ έγινε πλυντήριο πιάτων. Θα ήθελα πολύ να λάβω επίσημη απάντηση»
έγραψε ένας χρήστης
νωρίτερα αυτό το μήνα.
[Related: There’s a glaring issue with the AI moratorium letter.]
Η έρευνα και η ανάπτυξη του LLM του OpenAI είναι γνωστό ότι περικλείεται σε εξωτερικές αναθεωρήσεις, μια στρατηγική που έχει προκαλέσει έντονες αντιδράσεις και κριτική από ειδικούς και χρήστες του κλάδου. «Είναι πραγματικά δύσκολο να πούμε γιατί συμβαίνει αυτό»,
έγραψε στο Twitter ο Ματέι Ζαχαρία
, ένας από τους συν-συγγραφείς του εγγράφου αξιολόγησης ποιότητας ChatGPT, την Τετάρτη. Ο Zaharia, αναπληρωτής καθηγητής Επιστήμης Υπολογιστών στο UC Berkeley και CTO for Databricks, συνέχισε υποθέτοντας ότι η ενίσχυση της μάθησης από την ανθρώπινη ανάδραση (RLHF) θα μπορούσε να «χτυπήσει σε τοίχο» παράλληλα με τη λεπτομέρεια, αλλά παραδέχθηκε ότι θα μπορούσε απλώς να είναι σφάλματα στο σύστημα.
Έτσι, ενώ το ChatGPT μπορεί να περάσει τα στοιχειώδη σημεία αναφοράς του Turing Test, η άνιση ποιότητά του εξακολουθεί να δημιουργεί μεγάλες προκλήσεις και ανησυχίες για το κοινό—όλα
ενώ λίγα στέκονται εμπόδιο
της συνεχιζόμενης διάδοσης και ένταξής τους στην καθημερινή ζωή.


