Το Gemini 1.5 Pro της Google είναι ένα νέο, πιο αποτελεσματικό μοντέλο τεχνητής νοημοσύνης
Την Πέμπτη, η Google
αποκαλύφθηκε
Gemini 1.5 Pro, το οποίο η εταιρεία περιγράφει ότι προσφέρει «δραματικά βελτιωμένη απόδοση» σε σχέση με το προηγούμενο μοντέλο. Η τροχιά AI της εταιρείας – που εσωτερικά θεωρείται ολοένα και πιο κρίσιμη για το
μέλλον
της – ακολουθεί την αποκάλυψη του Gemini 1.0 Ultra την περασμένη εβδομάδα, παράλληλα με την αλλαγή της επωνυμίας του
Bard chatbot
(σε Gemini) για να ευθυγραμμιστεί με τις πιο ισχυρές και ευέλικτες δυνατότητες του νέου μοντέλου.
Σε μια ανάρτηση ιστολογίου ανακοίνωσης, ο CEO της Google, Sundar Pichai και ο CEO της Google DeepMind, Demis Hassabis, προσπαθούν να ισορροπήσουν διαβεβαιώνοντας το κοινό τους σχετικά με την ηθική ασφάλεια της τεχνητής νοημοσύνης, ενώ διαφημίζουν τις ταχύτατα εξελισσόμενες δυνατότητες των μοντέλων τους. «Οι
ομάδες
μας συνεχίζουν να πιέζουν τα σύνορα των τελευταίων μοντέλων μας με την ασφάλεια στον πυρήνα», συνόψισε ο Pichai.
Η εταιρεία πρέπει να δώσει έμφαση στην ασφάλεια για τους σκεπτικιστές της τεχνητής νοημοσύνης (συμπεριλαμβανομένου ενός πρώην CEO της Google) και των κυβερνητικών ρυθμιστικών αρχών. Αλλά πρέπει επίσης να τονίσει την επιταχυνόμενη απόδοση των μοντέλων της για προγραμματιστές τεχνητής νοημοσύνης, πιθανούς πελάτες και επενδυτές που ανησυχούν ότι η εταιρεία ήταν πολύ αργή για να αντιδράσει στην επιτυχία του OpenAI με το ChatGPT.
Οι Pichai και Hassabis λένε ότι το Gemini 1.5 Pro προσφέρει συγκρίσιμα αποτελέσματα με το Gemini 1.0 Ultra. Ωστόσο, το Gemini 1.5 αποδίδει σε αυτό το επίπεδο πιο αποτελεσματικά, με μειωμένες υπολογιστικές απαιτήσεις. Οι πολυτροπικές δυνατότητες περιλαμβάνουν την επεξεργασία κειμένου, εικόνων, βίντεο,
ήχου
ή κώδικα. Καθώς τα μοντέλα τεχνητής νοημοσύνης προχωρούν, θα συνεχίσουν να προσφέρουν μια πιο ευέλικτη σειρά δυνατοτήτων σε ένα πλαίσιο προτροπής (ένα άλλο πρόσφατο παράδειγμα ήταν το OpenAI που ενσωμάτωσε τη δημιουργία εικόνων DALL-E 3 στο ChatGPT).
Ο διευθύνων σύμβουλος της Google Sundar Pichai
(ALAIN JOCARD μέσω Getty Images)
Το Gemini 1.5 Pro μπορεί επίσης να χειριστεί έως και ένα εκατομμύριο μάρκες ή οι μονάδες δεδομένων μοντέλων τεχνητής νοημοσύνης μπορούν να επεξεργαστούν σε ένα μόνο αίτημα. Η Google λέει ότι το Gemini 1.5 Pro μπορεί να επεξεργαστεί περισσότερες από 700.000 λέξεις, μια ώρα βίντεο, 11 ώρες ήχου και βάσεις κωδικών με περισσότερες από 30.000 γραμμές κώδικα. Η εταιρεία λέει ότι «δοκιμάστηκε με επιτυχία» μια έκδοση που υποστηρίζει έως και 10 εκατομμύρια διακριτικά.
Η εταιρεία λέει ότι το Gemini 1.5 Pro διατηρεί υψηλή ακρίβεια σε ερωτήματα με μεγαλύτερο αριθμό διακριτικών όταν έχει περισσότερα νέα δεδομένα να μάθει. Λέει ότι το μοντέλο εντυπωσιάστηκε στο
Αξιολόγηση Needle In a Haystack
. Σε αυτήν τη δοκιμή, οι προγραμματιστές εισάγουν ένα μικρό κομμάτι πληροφοριών μέσα σε ένα μεγάλο μπλοκ κειμένου για να δουν αν το μοντέλο AI μπορεί να το επιλέξει. Η Google είπε ότι το Gemini 1.5 Pro μπορούσε να βρει το ενσωματωμένο κείμενο το 99 τοις εκατό του χρόνου σε μπλοκ δεδομένων έως και ενός εκατομμυρίου διακριτικών.
Η Google λέει ότι το Gemini 1.5 Pro μπορεί να εξηγήσει διάφορες λεπτομέρειες από τις μεταγραφές της αποστολής Apollo 11 σε φεγγάρι 402 σελίδων. Επιπλέον, μπορεί να αναλύσει σημεία πλοκής και γεγονότα από μια ανεβασμένη βουβή ταινία 44 λεπτών με πρωταγωνιστή τον Μπάστερ Κίτον. «Καθώς το μακρύ παράθυρο περιβάλλοντος του 1.5 Pro είναι το πρώτο του είδους του μεταξύ μοντέλων μεγάλης κλίμακας, αναπτύσσουμε συνεχώς νέες αξιολογήσεις και σημεία αναφοράς για τη δοκιμή των νέων δυνατοτήτων του», έγραψε ο Hassabis.
Η Google λανσάρει το Gemini 1.5 Pro με δυνατότητες 128.000 token.
τον ίδιο αριθμό
στο οποίο τα μοντέλα GPT-4 του OpenAI (δημόσια ανακοινωθείσα) υπερβαίνουν το μέγιστο. Ο Hassabis λέει ότι η Google θα εισαγάγει τελικά νέα επίπεδα τιμολόγησης που υποστηρίζουν έως και ένα εκατομμύριο ερωτήματα.

Ο
Διευθύνων Σύμβουλος
της Google DeepMind Ντέμης Χασάμπης
(Joy Malone μέσω Getty Images)
Το Gemini 1.5 Pro είναι επίσης έμπειρο στην εκμάθηση νέων δεξιοτήτων από πληροφορίες σε μεγάλες προτροπές — χωρίς πρόσθετη λεπτομέρεια (“εκμάθηση εντός του πλαισίου”). Σε ένα σημείο αναφοράς που ονομάζεται
Μηχανική μετάφραση από ένα βιβλίο
, το μοντέλο έμαθε ένα εγχειρίδιο γραμματικής για την Kalamang, μια γλώσσα με λιγότερους από 200 ομιλητές παγκοσμίως στην οποία δεν είχε εκπαιδευτεί στο παρελθόν. Η εταιρεία λέει ότι το Gemini 1.5 Pro έμαθε να αποδίδει σε παρόμοιο επίπεδο με τον άνθρωπο που μαθαίνει το ίδιο περιεχόμενο όταν μεταφράζει αγγλικά σε Kalamang.
Σε ένα κομμάτι της ανακοίνωσης που θα τραβήξει την προσοχή των προγραμματιστών, η Google λέει ότι το Gemini 1.5 Pro μπορεί να εκτελέσει εργασίες επίλυσης προβλημάτων σε μεγαλύτερα μπλοκ κώδικα. «Όταν δίνεται μια προτροπή με περισσότερες από 100.000 γραμμές κώδικα, μπορεί να εξηγήσει καλύτερα παραδείγματα, να προτείνει χρήσιμες τροποποιήσεις και να δώσει εξηγήσεις σχετικά με τον τρόπο λειτουργίας των διαφορετικών τμημάτων του κώδικα», έγραψε ο Hassabis.
Στο μέτωπο της ηθικής και της ασφάλειας, η Google λέει ότι ακολουθεί «την ίδια προσέγγιση για την υπεύθυνη ανάπτυξη» που ακολουθούσε με τα μοντέλα Gemini 1.0. Αυτό περιλαμβάνει την ανάπτυξη και την εφαρμογή τεχνικών red-teaming, όπου μια ομάδα ηθικών προγραμματιστών ουσιαστικά λειτουργεί ως συνήγορος του διαβόλου, δοκιμάζοντας για «μια σειρά πιθανών βλαβών». Επιπλέον, η εταιρεία λέει ότι ελέγχει σε μεγάλο βαθμό τομείς όπως η ασφάλεια περιεχομένου και οι βλάβες στην αναπαράσταση. Η εταιρεία λέει ότι συνεχίζει να αναπτύσσει νέες δοκιμές ηθικής και ασφάλειας για τα εργαλεία τεχνητής νοημοσύνης της.
Η Google λανσάρει το Gemini 1.5 σε πρώιμη πρόσβαση για προγραμματιστές και εταιρικούς πελάτες. Η εταιρεία σχεδιάζει να το κάνει πιο ευρέως διαθέσιμο τελικά. Το Gemini 1.0 είναι προς το παρόν διαθέσιμο για τους καταναλωτές, μαζί με α
Pro παραλλαγή
που κοστίζει 20 $ μηνιαίως.
VIA:
engadget.com

