Το πιο πρόσφατο μοντέλο της Anthropic μπορεί να έχει ως είσοδο τον The Great Gatsby

On

Μάι 11, 2023

Η συμβουλευτική εταιρεία Krebs Stamos Group απολύει έξι…

Η βιογραφία του Έλον Μασκ του Walter Isaacson είναι τελικά…

iOS 16.5: Κατεβάστε άμεσα τη νέα μεγάλη ενημέρωση των…

Ιστορικά και ακόμη και σήμερα, η κακή μνήμη ήταν εμπόδιο στη χρησιμότητα της τεχνητής νοημοσύνης που δημιουργεί κείμενο. Ως πρόσφατο κομμάτι στο The Atlantic εύστοχα

βάζει

Αυτό, ακόμη και το εξελιγμένο κείμενο δημιουργίας τεχνητής νοημοσύνης όπως το ChatGPT έχει τη μνήμη ενός χρυσόψαρου. Κάθε φορά που το μοντέλο δημιουργεί μια απάντηση, λαμβάνει υπόψη μόνο έναν πολύ περιορισμένο όγκο κειμένου — εμποδίζοντάς το, ας πούμε, να συνοψίσει ένα βιβλίο ή να αναθεωρήσει ένα σημαντικό έργο κωδικοποίησης.

Αλλά η Anthropic προσπαθεί να το αλλάξει αυτό.

Σήμερα, η startup έρευνας AI

ανακοινώθηκε

ότι έχει επεκτείνει το παράθυρο περιβάλλοντος για τον Claude – το ναυαρχίδα του μοντέλου τεχνητής νοημοσύνης που δημιουργεί κείμενο, ακόμα σε προεπισκόπηση – από 9.000 μάρκες σε 100.000 μάρκες. Το παράθυρο περιβάλλοντος αναφέρεται στο κείμενο που εξετάζει το μοντέλο πριν δημιουργήσει πρόσθετο κείμενο, ενώ τα διακριτικά αντιπροσωπεύουν ακατέργαστο κείμενο (π.χ. η λέξη “φανταστικό” θα χωριστεί στα διακριτικά “fan”, “tas” και “tic”).

Ποια είναι ακριβώς η σημασία; Λοιπόν, όπως αναφέρθηκε προηγουμένως, τα μοντέλα με μικρά παράθυρα περιβάλλοντος τείνουν να «ξεχνούν» το περιεχόμενο ακόμη και πολύ πρόσφατων συνομιλιών – οδηγώντας τα να ξεφύγουν από το θέμα. Μετά από μερικές χιλιάδες λέξεις περίπου, ξεχνούν επίσης τις αρχικές τους οδηγίες, αντί να προεκτείνουν τη συμπεριφορά τους από τις τελευταίες πληροφορίες μέσα στο παράθυρο του πλαισίου τους και όχι από το αρχικό αίτημα.

Δεδομένων των πλεονεκτημάτων των μεγάλων παραθύρων περιβάλλοντος, δεν προκαλεί έκπληξη το γεγονός ότι η εξεύρεση τρόπων επέκτασής τους έχει γίνει το κύριο επίκεντρο των εργαστηρίων τεχνητής νοημοσύνης όπως το OpenAI, το οποίο αφιέρωσε μια ολόκληρη ομάδα στο θέμα. Το GPT-4 του OpenAI κατείχε το προηγούμενο στέμμα όσον αφορά τα μεγέθη των παραθύρων περιβάλλοντος, ζυγίζοντας 32.000 tokens στο υψηλό επίπεδο — αλλά το βελτιωμένο Claude API το ξεπερνά.

Με μεγαλύτερη «μνήμη», ο Claude θα πρέπει να μπορεί να συνομιλεί σχετικά συνεκτικά για ώρες – αρκετές ημέρες, ακόμη και – σε αντίθεση με τα λεπτά. Και ίσως το πιο σημαντικό, θα πρέπει να είναι λιγότερο πιθανό να βγει από τις ράγες.

Σε μια ανάρτηση ιστολογίου, το Anthropic προβάλλει τα άλλα πλεονεκτήματα του αυξημένου παραθύρου περιβάλλοντος του Claude, συμπεριλαμβανομένης της ικανότητας του μοντέλου να αφομοιώνει και να αναλύει εκατοντάδες σελίδες υλικού. Πέρα από την ανάγνωση μεγάλων κειμένων, ο αναβαθμισμένος Claude μπορεί να βοηθήσει στην ανάκτηση πληροφοριών από πολλά έγγραφα ή ακόμα και ένα βιβλίο, λέει ο Anthropic, απαντώντας σε ερωτήσεις που απαιτούν «σύνθεση γνώσης» σε πολλά μέρη του κειμένου.

Το Anthropic παραθέτει μερικές πιθανές περιπτώσεις χρήσης:

Πέψη, σύνοψη και επεξήγηση εγγράφων όπως οικονομικές καταστάσεις ή ερευνητικές εργασίες
Ανάλυση κινδύνων και ευκαιριών για μια εταιρεία με βάση τις ετήσιες εκθέσεις της
Αξιολόγηση των πλεονεκτημάτων και των μειονεκτημάτων μιας νομοθεσίας
Εντοπισμός κινδύνων, θεμάτων και διαφορετικών μορφών επιχειρημάτων στα νομικά έγγραφα.
Ανάγνωση εκατοντάδων σελίδων τεκμηρίωσης προγραμματιστών και εμφάνιση απαντήσεων σε τεχνικές ερωτήσεις
Γρήγορη δημιουργία πρωτοτύπων με την απόθεση μιας ολόκληρης βάσης κωδικών στο περιβάλλον και έξυπνη ανάπτυξη ή τροποποίηση της

«Ο μέσος άνθρωπος μπορεί να διαβάσει 100.000 μάρκες κειμένου σε περίπου πέντε ώρες και μετά μπορεί να χρειαστεί πολύ περισσότερο χρόνο για να αφομοιώσει, να θυμηθεί και να αναλύσει αυτές τις πληροφορίες», συνεχίζει ο Anthropic. «Ο Κλοντ μπορεί τώρα να το κάνει αυτό σε λιγότερο από ένα λεπτό. Για παράδειγμα, φορτώσαμε ολόκληρο το κείμενο του The Great Gatsby στον Claude… και τροποποιήσαμε μια γραμμή για να πούμε ότι ο κύριος Carraway ήταν «μηχανικός λογισμικού που εργάζεται σε εργαλεία μηχανικής μάθησης στο Anthropic». Όταν ζητήσαμε από το μοντέλο να εντοπίσει τι ήταν διαφορετικό, απάντησε με τη σωστή απάντηση σε 22 δευτερόλεπτα».

Τώρα, τα μεγαλύτερα παράθυρα περιβάλλοντος δεν επιλύουν τις άλλες προκλήσεις που σχετίζονται με τη μνήμη γύρω από μεγάλα μοντέλα γλώσσας. Ο Claude, όπως τα περισσότερα μοντέλα της κατηγορίας του, δεν μπορεί να διατηρήσει πληροφορίες από τη μια συνεδρία στην άλλη. Και σε αντίθεση με τον ανθρώπινο εγκέφαλο, αντιμετωπίζει κάθε πληροφορία ως εξίσου σημαντική, καθιστώντας τον έναν όχι ιδιαίτερα αξιόπιστο αφηγητή. Ορισμένοι ειδικοί πιστεύουν ότι η επίλυση αυτών των προβλημάτων θα απαιτήσει εντελώς νέες αρχιτεκτονικές μοντέλων.

Προς το παρόν, ωστόσο, η Anthropic φαίνεται να βρίσκεται στην πρώτη γραμμή.

techcrunch.com