Η Google ανακοινώνει το Gemini 1.5 με διευρυμένο παράθυρο περιβάλλοντος
Μετά την κυκλοφορία του 1.0 τον Δεκέμβριο, η Google
ανακοινώθηκε σήμερα
Το Gemini 1.5 ως μοντέλο επόμενης γενιάς με «δρα
ματ
ικά βελτιωμένη απόδοση».
Μία από τις κύριες εξελίξεις στο Gemini 1.5 είναι ένα σημαντικά μεγαλύτερο παράθυρο περιβάλλοντος.
Το «παράθυρο περιβάλλοντος» ενός μοντέλου τεχνητής νοημοσύνης αποτελείται από διακριτικά, τα οποία είναι τα δο
μι
κά στοιχεία που χρησιμοποιούνται για την επεξεργασία πληροφοριών. Τα διακριτικά μπορεί να είναι ολόκληρα μέρη ή υποενότητες λέξεων, εικόνων, βίντεο,
ήχου
ή κώδικα. Όσο μεγαλύτερο είναι το παράθυρο περιβάλλοντος ενός μοντέλου, τόσο περισσότερες πληροφορίες μπορεί να λάβει και να επεξεργαστεί σε μια δεδομένη προτροπή – καθιστώντας το αποτέλεσμα πιο συνεπές, σχετικό και χρήσιμο.
Το Gemini 1.5 Pro — το μεσαίο επίπεδο της Google — έχει ένα τυπικό παράθυρο περιβάλλοντος 128.000 μάρκες (έναντι 32.000 μάρκες για το Gemini 1.0). Αυτό μεταφράζεται σε περισσότερες από 700.000 λέξεις, βάσεις κωδικών με περισσότερες από 30.000 γραμμές κώδικα, 11 ώρες ήχου ή 1 ώρα βίντεο. Το GPT-4 Turbo είναι επίσης στις 128.000 και το
Claude
2.1 προσφέρει 200.000. Παραδείγματα τέτοιων ενεργειών περιλαμβάνουν:
-
«1.5 Pro μπορεί
αναλύει απρόσκοπτα, ταξινομεί και συνοψίζει μεγάλες ποσότητες περιεχομένου
μέσα σε μια δεδομένη προτροπή. Για παράδειγμα, όταν δοθούν οι μεταγραφές 402 σελίδων από την αποστολή του
Apollo
11 στη Σελήνη, μπορεί να αιτιολογήσει συζητήσεις, συμβάντα και λεπτομέρειες που βρίσκονται στο έγγραφο.»
-
«1.5 Pro μπορεί
εκτελούν εξαιρετικά εξελιγμένες εργασίες κατανόησης και συλλογισμού για διαφορετικούς τρόπους, συμπεριλαμβανομένου του βίντεο
. Για παράδειγμα, όταν δίνεται 44 λεπτά σιωπής
Την ταινία Buster Keaton
το μοντέλο μπορεί να αναλύσει με ακρίβεια διάφορα σημεία πλοκής και γεγονότα, ακόμη και να αιτιολογήσει μικρές λεπτομέρειες στην ταινία που θα μπορούσαν εύκολα να χαθούν.”
-
«1.5 Pro μπορεί
εκτελούν πιο σχετικές εργασίες επίλυσης προβλημάτων σε μεγαλύτερα μπλοκ κώδικα
. Όταν δίνεται μια προτροπή με περισσότερες από 100.000 γραμμές κώδικα, μπορεί να εξηγήσει καλύτερα παραδείγματα, να προτείνει χρήσιμες τροποποιήσεις και να δώσει εξηγήσεις σχετικά με τον τρόπο λειτουργίας των διαφορετικών τμημάτων του κώδικα.
Το πιο αξιοσημείωτο είναι ότι η Google έχει τρέξει έως και 1 εκατομμύριο μάρκες σε παραγωγή και τα κάνει διαθέσιμα σε ορισμένους πρώτους δοκιμαστές, ενώ έχει «δοκιμάσει με επιτυχία έως και 10 εκατομμύρια μάρκες» (
κείμενο
).
Αυτές οι εξελίξεις γίνονται δυνατές από μια νέα αρχιτεκτονική Mixture-of-Experts (MoE) όπου τα μοντέλα «διαιρούνται σε μικρότερα «ειδικά» νευρωνικά δίκτυα». Αυτό κάνει το Gemini 1.5 πιο αποτελεσματικό τόσο για την εκπαίδευση όσο και για το σερβίρισμα.
Ανάλογα με τον τύπο της εισόδου που δίνεται, τα μοντέλα MoE μαθαίνουν να ενεργοποιούν επιλεκτικά μόνο τις πιο σχετικές οδούς εμπειρογνωμόνων στο νευρωνικό τους δίκτυο. Αυτή η εξειδίκευση ενισχύει μαζικά την αποτελεσματικότητα του μοντέλου.
Όσον αφορά την απόδοση, το 1.5 Pro υπερτερεί του 1.0 Pro στο 87% των σημείων αναφοράς σε αξιολογήσεις κειμένου, κώδικα, εικόνας, ήχου και βίντεο. Ακόμη και «αποδίδει σε γενικά παρόμοιο επίπεδο» με το 1.0 Ultra.
Το Gemini 1.5 Pro δείχνει επίσης εντυπωσιακές δεξιότητες “εκμάθησης εντός του πλαισίου”, που σημαίνει ότι μπορεί να μάθει μια νέα δεξιότητα από πληροφορίες που δίνονται σε μια μεγάλη προτροπή, χωρίς να χρειάζεται πρόσθετη λεπτομέρεια.
Το Gemini 1.5 Pro (παράθυρο περιβάλλοντος 128.000 token) κυκλοφορεί ως περιορισμένη προεπισκόπηση σε
προγραμματιστές
και
εταιρικούς πελάτες
μέσω AI Studio και Vertex AI. Περιγράφεται ως πειραματικό κατά τη διάρκεια αυτής της περιόδου.
Σύντομα, σχεδιάζουμε να εισαγάγουμε επίπεδα τιμολόγησης που ξεκινούν από το τυπικό παράθυρο περιβάλλοντος των 128.000 και κλιμακώνονται έως και 1 εκατομμύριο μάρκες, καθώς βελτιώνουμε το μοντέλο.
VIA:
9to5google.com

