Το Mistral AI’s Mixtral 8x7B ξεπερνά το GPT-3.5, ανακινώντας τον κόσμο της AI
Η Mistral, μια γαλλική startup τεχνητής νοημοσύνης, έχει κάνει πάταγο στην κοινότητα της τεχνητής νοημοσύνης με την κυκλοφορία του Mixtral 8x7B, του τελευταίου
μοντέλο
υ τεχνητής νοημοσύνης ανοιχτού κώδικα. Αυτό το μοντέλο έχει τραβήξει την προσοχή επειδή δυνη
τι
κά ξεπέρασε το GPT-3.5 του
OpenAI
και το Llama 2 του Meta σε απόδοση. Η εταιρεία υιοθέτησε μια μοναδική προσέγγιση, κυκλοφόρησε το πιο πρόσφατο μοντέλο της σε μεγάλη γλώσσα χωρίς τελετές, μέσω ενός συνδέσμου torrent στα μέσα κοινωνικής δικτύωσης. Αυτή η κίνηση έρχεται σε αντίθεση με τις τυπικές φανφάρες που σχετίζονται με τις εκδόσεις τεχνητής νοημοσύνης, επιδεικνύοντας την ξεχωριστή, σαν χάκερ στάση του Mistral.
Mixtral 8x7B: Ένα νέο εργοστάσιο παρ
αγωγή
ς τεχνητής νοημοσύνης
Πρόσφατα, η Mistral έθεσε ένα
εντυπωσιακά 415 εκατομμύρια δολάρια σε έναν γύρο χρηματοδότησης Series A
, ωθώντας την αποτίμησή του σε περίπου 2 δισεκατομμύρια δολάρια. Αυτή η οικονομική ανάπτυξη υπογραμμίζει την επιτυχία και τις δυνατότητες της εταιρείας στον τομέα της τεχνητής νοημοσύνης. Το Mixtral 8x7B, χρησιμοποιώντας μια προσέγγιση «μίξης ειδικών», ενσωματώνει διάφορα μοντέλα, καθένα από τα οποία ειδικεύεται σε διαφορετικές εργασίες. Αυτή η καινοτόμος τεχνική οδήγησε στην εντυπωσιακή απόδοσή της, εξισώνοντας ή ξεπερνώντας τα GPT-3.5 και Llama 2 σε διάφορα σημεία αναφοράς. Η Mistral κυκλοφόρησε αυτό το μοντέλο στο διαδίκτυο, ακολουθούμενη από μια επίσημη ανάρτηση ιστολογίου που περιγράφει λεπτομερώς τις δυνατότητές του και επιβεβαίωσε ότι είναι διαθέσιμο για εμπορική χρήση με άδεια Apache 2.0.
Μικρό αποτύπωμα: Μπορεί να τρέξει σε Mac
Ένα από τα αξιοσημείωτα χαρακτηριστικά του Mixtral 8x7B είναι η ικανότητά του να τρέχει σε συσκευές χωρίς GPU, εκδημοκρατίζοντας ενδεχομένως την πρόσβαση σε προηγμένη τεχνολογία AI. Το μοντέλο επιτυγχάνει αποτελέσματα αιχμής μεταξύ ανοιχτών μοντέλων, με πλεονεκτήματα στη δημιουργία γλώσσας σε μεγάλα πλαίσια και στη δημιουργία κώδικα.
Για όσους δεν ακολουθούν στενά την τεχνητή νοημοσύνη:
1) Ένα μοντέλο ανοιχτού κώδικα (δωρεάν, ο καθένας μπορεί να κατεβάσει ή να τροποποιήσει) ξεπερνά το GPT-3.5
2) Δεν έχει προστατευτικά κιγκλιδώματα
Υπάρχουν καλά πράγματα σχετικά με αυτήν την έκδοση, αλλά και οι ρυθμιστικές αρχές, οι ειδικοί σε θέματα ασφάλειας πληροφορικής, κ.λπ. θα πρέπει να σημειώσουν ότι το τζίνι είναι έξω από το μπουκάλι.
https://t.co/nHvlNKaItw
— Ethan Mollick (@emollick)
11 Δεκεμβρίου 2023
Οι λάτρεις της τεχνητής νοημοσύνης και οι επαγγελματίες υιοθέτησαν γρήγορα το Mixtral 8x7B, εντυπωσιασμένοι από την απόδοση και την ευελιξία του. Το μικρό αποτύπωμα του μοντέλου του επιτρέπει να λειτουργεί σε μηχανές χωρίς αποκλειστικές GPU, συμπεριλαμβανομένων των πιο πρόσφατων υπολογιστών Apple Mac. Ωστόσο, η έλλειψη προστατευτικών κιγκλιδωμάτων, όπως παρατήρησε ο καθηγητής της Σχολής Wharton, Ethan Mollick, έχει
εγείρει ανησυχίες
σχετικά με περιεχόμενο που θεωρείται μη ασφαλές από άλλα μοντέλα.
6 φορές ταχύτερο από το Llama 2 70B
Το Mixtral 8x7B ξεχωρίζει με την έξι φορές μεγαλύτερη ταχύτητα συμπερασμάτων του σε σύγκριση με το Llama 2 70B, χάρη στην αραιή αρχιτεκτονική του μοντέλου και τα οκτώ διαφορετικά μπλοκ προώθησης στο Transformer. Υποστηρίζει πολύγλωσσες δυνατότητες, εξαιρετική δημιουργία κώδικα και παράθυρο περιβάλλοντος 32k. Η αποτίμηση του Mistral εκτινάχθηκε σε πάνω από 2 δισεκατομμύρια δολάρια σε μόλις έξι μήνες, υπογραμμίζοντας την αυξανόμενη σημασία των μεγάλων μοντέλων Mixture of Experts στο τοπίο της τεχνητής νοημοσύνης.
Ανοιχτού κώδικα χωρίς όρια
Το Mixtral 8x7B, ένα μοντέλο ανοιχτού κώδικα, αποδεικνύεται ότι αλλάζει το παιχνίδι. Όχι μόνο ξεπερνά ορισμένους ανταγωνιστές στις
ΗΠΑ
, όπως η οικογένεια Llama 2 της Meta και η GPT-3.5 της OpenAI, αλλά προσφέρει επίσης γρήγορη και αποτελεσματική απόδοση. Η διαθεσιμότητα ανοιχτού κώδικα του μοντέλου έρχεται σε αντίθεση με την προσέγγιση κλειστού κώδικα του OpenAI, ευθυγραμμισμένη με τη δέσμευση της Mistral για μια «ανοικτή, υπεύθυνη και αποκεντρωμένη προσέγγιση στην τεχνολογία».
Το μοντέλο της Mistral είναι ένα υψηλής ποιότητας αραιό μείγμα εξειδικευμένων μοντέλων (SMoE) με ανοιχτά βάρη, με άδεια χρήσης Apache 2.0. Έχει δείξει ανώτερη απόδοση στα περισσότερα σημεία αναφοράς σε σύγκριση με το Llama 2 70B, επιτυγχάνοντας έξι φορές ταχύτερο συμπέρασμα. Αυτή η αποτελεσματικότητα σηματοδοτεί το Mixtral 8x7B ως το ισχυρότερο μοντέλο ανοιχτού βάρους όσον αφορά το κόστος και την απόδοση.
VIA:
DataConomy.com
