100 φορές λιγότεροι υπολογισμοί με απόδοση Large Language Model σε επίπεδο Generative Pre-trained Transformer: Η σημασία του RWKV στην επίλυση του προβλήματος της ισχύος της GPU και οι προκλήσεις που αντιμετωπίζει


Τα επαναλαμβανόμενα νευρωνικά δίκτυα (RNN) είναι ένας τύπος Τεχνητής Νοημοσύνης που χρησιμοποιείται κυρίως στον τομέα της βαθιάς μάθησης. Σε αντίθεση με τα παραδοσιακά νευρωνικά δίκτυα, τα RNN διαθέτουν μνήμη που συλλαμβάνει πληροφορίες σχε

κά με το τι έχει υπολογιστεί μέχρι τώρα. Με άλλα λόγια, χρησιμοποιούν την κατανόησή τους από προηγούμενες εισροές για να επηρεάσουν την

που θα παράγουν.

Τα RNN ονομάζονται “recurrent” επειδή εκτελούν την ίδια

για κάθε στοιχείο σε μια ακολουθία, με την έξοδο να εξαρτάται από τους προηγούμενους υπολογισμούς. Τα RNN εξακολουθούν να χρησιμοποιούνται για την τροφοδοσία έξυπνων τεχνολογιών όπως το Siri της Apple και το Google Translate.

Ωστόσο, με την εμφάνιση μετασχηματιστών όπως το ChatGPT, το τοπίο της επεξεργασίας φυσικής γλώσσας (NLP) έχει αλλάξει. Ενώ οι μετασχηματιστές έφεραν επανάσταση στις εργασίες NLP, η μνήμη και η υπολογιστική τους πολυπλοκότητα κλιμακώθηκαν τετραγωνικά με το μήκος ακολουθίας, απαιτώντας περισσότερους πόρους.

Εισαγάγετε το RWKV

Τώρα, ένα νέο έργο ανοιχτού κώδικα,

RWKV

, προσφέρει πολλά υποσχόμενες λύσεις στο αίνιγμα ισχύος της GPU. Το έργο, που υποστηρίζεται από το Ίδρυμα Linux, στοχεύει να μειώσει δραστικά τις υπολογιστικές απαιτήσεις για μοντέλα εκμάθησης γλωσσών σε επίπεδο GPT (LLM), ενδεχομένως έως και 100x.

Τα RNN εμφανίζουν γραμμική κλίμακα στη μνήμη και στις υπολογιστικές απαιτήσεις, αλλά δυσκολεύονται να ταιριάξουν με την απόδοση των μετασχηματιστών λόγω των περιορισμών τους στην παραλληλοποίηση και την επεκτασιμότητα. Εδώ μπαίνει στο παιχνίδι το RWKV.

Το RWKV, ή Receptance Weighted Key Value, είναι μια νέα

μοντέλου που συνδυάζει την παραλληλοποιήσιμη απόδοση εκπαίδευσης των μετασχηματιστών με την αποτελεσματική εξαγωγή συμπερασμάτων των RNN. Το αποτέλεσμα? Ένα μοντέλο που απαιτεί σημαντικά λιγότερους πόρους (VRAM, CPU, GPU, κ.λπ.) για τρέξιμο και εκπαίδευση, διατηρώντας παράλληλα την απόδοση υψηλής ποιότητας. Κλιμακώνεται επίσης γραμμικά σε οποιοδήποτε μήκος περιβάλλοντος και γενικά είναι καλύτερα εκπαιδευμένο σε άλλες γλώσσες εκτός από τα αγγλικά.

Παρά αυτά τα πολλά υποσχόμενα χαρακτηριστικά, το μοντέλο RWKV

χωρίς προκλήσεις. Είναι ευαίσθητο στην άμεση μορφοποίηση και πιο αδύναμο σε εργασίες που απαιτούν αναδρομή. Ωστόσο, αυτά τα ζητήματα αντιμετωπίζονται και τα πιθανά οφέλη του μοντέλου υπερτερούν κατά πολύ των σημερινών περιορισμών.

Οι επιπτώσεις του έργου RWKV είναι βαθιές. Αντί να χρειάζονται 100 GPU για την εκπαίδευση ενός μοντέλου LLM, ένα μοντέλο RWKV θα μπορούσε να προσφέρει παρόμοια αποτελέσματα με λιγότερες από 10 GPU. Αυτό όχι μόνο κάνει την τεχνολογία πιο προσιτή αλλά και ανοίγει δυνατότητες για περαιτέρω προόδους.


VIA:

TechRadar.com/


Follow TechWar.gr on Google News


Leave A Reply



Cancel Reply

Your email address will not be published.