Η Meta κυκλοφορεί το Llama 2, ένα πιο «χρήσιμο» σύνολο μοντέλων δημιουργίας κειμένου
Το τοπίο της γενετικής τεχνητής νοημοσύνης μεγαλώνει μέρα με τη μέρα.
Σήμερα, η
Meta
ανακοίνωσε μια νέα οικογένεια μοντέλων AI,
Λάμα 2
, σχεδιασμένο να οδηγεί εφαρμογές όπως το
ChatGPT
του
OpenAI
, το Bing Chat και άλλα σύγχρονα chatbot. Εκπαιδευμένη σε ένα συνδυασμό δημοσίως διαθέσιμων δεδομένων, η Meta ισχυρίζεται ότι η απόδοση του Llama 2 βελτιώνεται σημαντικά σε σχέση με την προηγούμενη γενιά μοντέλων Llama.
Το Llama 2 είναι η συνέχεια του Llama — μια συλλογή μοντέλων που θα μπορούσαν να δημιουργήσουν κείμενο και κώδικα ως απόκριση σε προτροπές, συγκρίσιμα με άλλα συστήματα τύπου chatbot. Αλλά το Llama ήταν διαθέσιμο μόνο κατόπιν αιτήματος. Η Meta αποφάσισε να βάλει πρόσβαση στα μοντέλα υπό το φόβο της κακής χρήσης. (Παρά αυτό το προληπτικό μέτρο, ο Llama διέρρευσε αργότερα στο διαδίκτυο και εξαπλώθηκε σε διάφορες κοινότητες AI.)
Αντίθετα, το Llama 2 — το οποίο είναι δωρεάν για ερευνητική και εμπορική χρήση — θα είναι διαθέσιμο για τελειοποίηση στην πλατφόρμα φιλοξενίας μοντέλων τεχνητής νοημοσύνης AWS, Azure και Hugging Face σε προεκπαιδευμένη μορφή. Και θα είναι πιο εύκολο να εκτελεστεί, λέει η Meta — βελτιστοποιημένη για Windows χάρη σε μια διευρυμένη συνεργασία με τη
Microsoft
, καθώς και smartphone και υπολογιστές που συσκευάζουν το σύστημα Snapdragon της Qualcomm-on-chip. (Η Qualcomm λέει ότι εργάζεται για να φέρει το Llama 2 στις συσκευές Snapdragon το 2024.)
Πώς διαφέρει λοιπόν το Llama 2 από το Llama; Με διάφορους τρόπους, όλους τους οποίους ο Meta τονίζει εκτενώς
λευκό χαρτί
.
Το Llama 2 έρχεται σε δύο γεύσεις, το Llama 2 και το Llama 2-Chat, το τελευταίο εκ των οποίων ήταν βελτιστοποιημένο για αμφίδρομες συνομιλίες. Το Llama 2 και το Llama 2-Chat υποδιαιρούνται περαιτέρω σε εκδόσεις ποικίλης πολυπλοκότητας: 7 δισεκατομμύρια παράμετροι, 13 δισεκατομμύρια παράμετροι και 70 δισεκατομμύρια παράμετροι. (“Παράμετροι” είναι τα μέρη ενός μοντέλου που μαθαίνονται από δεδομένα εκπαίδευσης και ουσιαστικά καθορίζουν την ικανότητα του μοντέλου σε ένα πρόβλημα, σε αυτήν την περίπτωση τη δημιουργία κειμένου.)
Το Llama 2 εκπαιδεύτηκε σε δύο εκατομμύρια μάρκες, όπου τα “tokens” αντιπροσωπεύουν ακατέργαστο κείμενο – π.χ. “fan”, “tas” και “tic” για τη λέξη “fantastic”. Αυτό είναι σχεδόν διπλάσιο από ό,τι εκπαιδεύτηκε ο Llama (1,4 τρισεκατομμύρια) και – γενικά μιλώντας – όσο περισσότερα tokens, τόσο καλύτερα όσον αφορά τη γενετική τεχνητή νοημοσύνη. Το τρέχον κορυφαίο μοντέλο μεγάλων γλωσσών της
Google
(LLM), το PaLM 2, ήταν
σύμφωνα με πληροφορίες
εκπαιδεύτηκε σε 3,6 εκατομμύρια μάρκες, και εικάζεται ότι το GPT-4 εκπαιδεύτηκε και σε τρισεκατομμύρια μάρκες.
Η Meta δεν αποκαλύπτει τις συγκεκριμένες πηγές των δεδομένων εκπαίδευσης στη λευκή βίβλο, εκτός από το ότι είναι από τον Ιστό, κυρίως στα αγγλικά, όχι από προϊόντα ή υπηρεσίες της εταιρείας και δίνει έμφαση σε κείμενο «πραγματικής» φύσης.
Θα τολμούσα να μαντέψω ότι η απροθυμία να αποκαλυφθούν οι λεπτομέρειες της εκπαίδευσης έχει τις ρίζες της όχι μόνο σε ανταγωνιστικούς λόγους, αλλά και στις νομικές διαμάχες γύρω από τη γενετική τεχνητή νοημοσύνη. Μόλις σήμερα, χιλιάδες συγγραφείς υπέγραψαν μια επιστολή καλώντας τις εταιρείες τεχνολογίας να σταματήσουν να χρησιμοποιούν τα γραπτά τους για εκπαίδευση μοντέλων AI χωρίς άδεια ή αποζημίωση.
Αλλά παρεκκλίνω. Η Meta λέει ότι σε μια σειρά σημείων αναφοράς, τα μοντέλα Llama 2 έχουν ελαφρώς χειρότερη απόδοση από τους ανταγωνιστές κλειστού κώδικα υψηλότερου προφίλ, GPT-4 και PaLM 2, με το Llama 2 να βρίσκεται σημαντικά πίσω από το GPT-4 στον προγραμματισμό υπολογιστών. Αλλά οι αξιολογητές ανθρώπων βρίσκουν το Llama 2 περίπου τόσο «χρήσιμο» όσο το ChatGPT, ισχυρίζεται η Meta. Το Llama 2 απάντησε στο ίδιο επίπεδο σε ένα σύνολο περίπου 4.000 προτροπών που είχαν σχεδιαστεί για να διερευνήσουν τη «βοηθικότητα» και την «ασφάλεια».
Τα μοντέλα Llama 2 της Meta μπορούν να απαντήσουν σε ερωτήσεις — σε emoji.
Συντελεστές εικόνας:
Μετα
Πάρτε τα αποτελέσματα με λίγο αλάτι, όμως. Η Meta αναγνωρίζει ότι οι δοκιμές της δεν μπορούν να αποτυπώσουν κάθε πραγματικό σενάριο και ότι τα σημεία αναφοράς της ενδέχεται να στερούνται ποικιλομορφίας – με άλλα λόγια, να μην καλύπτουν επαρκώς τομείς όπως η κωδικοποίηση και η ανθρώπινη λογική.
Ο Meta παραδέχεται επίσης ότι το Llama 2, όπως όλα τα μοντέλα γενετικής τεχνητής νοημοσύνης, έχει προκαταλήψεις σε ορισμένους άξονες. Για παράδειγμα, είναι επιρρεπής στη δημιουργία αντωνυμιών «αυτός» με υψηλότερο ρυθμό από τις αντωνυμίες «αυτή» χάρη σε ανισορροπίες στα δεδομένα εκπαίδευσης. Ως αποτέλεσμα του τοξικού κειμένου στα δεδομένα εκπαίδευσης, δεν ξεπερνά τα άλλα μοντέλα σε δείκτες αναφοράς τοξικότητας. Και το Llama 2 έχει μια δυτική λοξή, χάρη για άλλη μια φορά στις ανισορροπίες δεδομένων, συμπεριλαμβανομένης της αφθονίας των λέξεων «Χριστιανός», «Καθολικός» και «Εβραίος».
Τα μοντέλα Llama 2-Chat τα καταφέρνουν καλύτερα από τα μοντέλα Llama 2 όσον αφορά τα εσωτερικά κριτήρια «βοηθικότητας» και τοξικότητας της Meta. Αλλά τείνουν επίσης να είναι υπερβολικά επιφυλακτικοί, με τα μοντέλα να κάνουν λάθος με το να αρνούνται ορισμένα αιτήματα ή να ανταποκρίνονται με πάρα πολλές λεπτομέρειες ασφαλείας.
Για να είμαστε δίκαιοι, τα σημεία αναφοράς δεν λαμβάνουν υπόψη πρόσθετα επίπεδα ασφάλειας που ενδέχεται να εφαρμοστούν στα φιλοξενούμενα μοντέλα Llama 2. Ως μέρος της συνεργασίας της με τη Microsoft, για παράδειγμα, η Meta χρησιμοποιεί το Azure AI Content Safety, μια υπηρεσία που έχει σχεδιαστεί για να ανιχνεύει «ακατάλληλο» περιεχόμενο σε εικόνες και κείμενο που δημιουργούνται από AI, για να μειώσει τις τοξικές εξόδους Llama 2 στο Azure.
Σε αυτήν την περίπτωση, η Meta εξακολουθεί να κάνει κάθε προσπάθεια να αποστασιοποιηθεί από δυνητικά επιβλαβή αποτελέσματα που αφορούν το Llama 2, τονίζοντας στη λευκή βίβλο ότι οι χρήστες του Llama 2 πρέπει να συμμορφώνονται με τους όρους της άδειας χρήσης και της πολιτικής αποδεκτής χρήσης της Meta εκτός από τις οδηγίες σχετικά με την «ασφαλή ανάπτυξη και ανάπτυξη.”
«Πιστεύουμε ότι η ανοιχτή κοινή χρήση των σημερινών μεγάλων γλωσσικών μοντέλων θα υποστηρίξει επίσης την ανάπτυξη χρήσιμης και ασφαλέστερης γενετικής τεχνητής νοημοσύνης», γράφει ο Meta σε μια ανάρτηση στο blog. “Ανυπομονούμε να δούμε τι χτίζει ο κόσμος με το Llama 2.”
Δεδομένης της φύσης των μοντέλων ανοιχτού κώδικα, ωστόσο, δεν μπορούμε να πούμε πώς — ή πού — τα μοντέλα θα μπορούσαν να χρησιμοποιηθούν ακριβώς. Με την αστραπιαία ταχύτητα που κινείται το διαδίκτυο, δεν θα αργήσουμε να το μάθουμε.


