Η Google ανακοινώνει το Gemini 1.0, που κυκλοφορεί σήμερα στο Bard
Μετά από πειράγματα στο I/O 2023 τον Μάιο, η Google ανακοίνωσε σήμερα
Δίδυμοι 1.0
το
μοντέλο
της επόμενης γενιάς, και το καθιστά διαθέσιμο μέσω της Bard.
Ως το «πιο ικανό και γενικό μοντέλο» της Google, το Gemini μπορεί να «κατανοήσει, να λειτουργήσει και να συνδυάσει» κείμενο, κώδικα, ήχο, εικόνες και βίντεο. Το να είσαι «εγγενώς πολυτροπικός» επιτρέπει καλύτερη κατανόηση, συλλογισμό και δυνατότητες κωδικοποίησης.
Η τρέχουσα προσέγγιση για τη δημιουργία πολυτροπικών μοντέλων περιλαμβάνει την «
εκπαίδευση
ξεχωριστών εξαρτημάτων για διαφορετικούς τρόπους και στη συνέχεια τη συρραφή τους». Αν και καλά σε ορισμένες εργασίες, η Google λέει ότι αυτά τα μοντέλα «παλεύουν με πιο εννοιολογικό και σύνθετο συλλογισμό».
Για τους Gemini, η Google «προεκπαιδεύτηκε από την αρχή σε διαφορετικούς τρόπους» χρησιμοποιώντας TPU 4 και TPU v5e. Η Google ανακοίνωσε επίσης σήμερα το TPU v5p (που φαίνεται παρακάτω) ως τον «πιο ισχυρό, αποτελεσματικό και επεκτάσιμο» επιταχυντή AI, ειδικά για προηγμένα μοντέλα.

Για να επιδείξει τις ικανότητές του «εξελιγμένου συλλογισμού», η Google παρουσίασε το Gemini χωνεύοντας 200.000 επιστημονικές ερευνητικές εργασίες, φιλτράροντας τις σχετικές και στη συνέχεια συνοψίζοντας τα δεδομένα σε περίπου μία ώρα. Η κωδικοποίηση είναι ένα άλλο σκηνικό, με το Gemini να μπορεί να «κατανοεί, να εξηγεί και να δημιουργεί κώδικα υψηλής ποιότητας» σε Python, Java, C++ και Go.
Το Gemini 1.0 είναι διαθέσιμο σε τρία διαφορετικά μεγέθη που εκτείνονται από κέντρα δεδομένων έως τηλέφωνα:
- Gemini Ultra: Το μεγαλύτερο και πιο ικανό μοντέλο για εξαιρετικά πολύπλοκες εργασίες
- Gemini Pro: Το καλύτερο μοντέλο για την κλιμάκωση σε ένα ευρύ φάσμα εργασιών
- Gemini Nano: Το πιο αποτελεσματικό μοντέλο για εργασίες στη συσκευή
Όσον αφορά την απόδοση, η Google έδειξε ότι το Gemini Ultra ξεπερνά το GPT-4 σε δείκτες αναφοράς που βασίζονται σε κείμενο που μετρούν τη λογική, τα μαθηματικά και τον κώδικα. Η εταιρεία διαφημίζει ιδιαίτερα πώς το Gemini Ultra είναι το «πρώτο μοντέλο που ξεπέρασε τους ανθρώπινους ειδικούς στο MMLU (μεγάλη κατανόηση γλώσσας πολλαπλών εργασιών)» στο 90,0%. Αυτό το σημείο αναφοράς «χρησιμοποιεί έναν συνδυασμό 57 μαθημάτων όπως μαθηματικά, φυσική,
ιστορία
, νομική, ιατρική και ηθική για τον έλεγχο τόσο της παγκόσμιας γνώσης όσο και των ικανοτήτων επίλυσης προβλημάτων», με την προσφορά του
OpenAI
να έχει βαθμολογία 86,4%.

Στο πολυτροπικό μέτωπο, βλέπουμε το Gemini Ultra να κερδίζει το GPT-4V σε δοκιμές εικόνας, βίντεο και ήχου, ενώ το
Google DeepMind
δημοσίευσε ένα
τεχνική έκθεση με περισσότερες λεπτομέρειες
.
Με τα σημεία αναφοράς εικόνας που δοκιμάσαμε, το Gemini Ultra ξεπέρασε τα προηγούμενα μοντέλα αιχμής, χωρίς τη βοήθεια συστημάτων αναγνώρισης χαρακτήρων αντικειμένων (OCR) που εξάγουν κείμενο από εικόνες για περαιτέρω επεξεργασία. Αυτά τα σημεία αναφοράς υπογραμμίζουν την εγγενή πολυτροπικότητα του Διδύμου και υποδεικνύουν πρώιμα σημάδια των πιο περίπλοκων συλλογιστικών ικανοτήτων του Διδύμου.


Όσον αφορά την ασφάλεια, το Gemini λέγεται ότι έχει «τις πιο ολοκληρωμένες αξιολογήσεις ασφάλειας από οποιοδήποτε μοντέλο AI της Google μέχρι σήμερα», με νέες προστασίες για να ληφθούν υπόψη οι πολυτροπικές δυνατότητες. Η Google αντιμετωπίζει συγκεκριμένα την προκατάληψη και την τοξικότητα.
Ο πρώτος τρόπος για να γνωρίσετε αυτό το νέο θεμελιώδες μοντέλο είναι μέσω του “Bard with Gemini Pro”. Ξεκινώντας τώρα, αυτή η «ειδικά συντονισμένη έκδοση» του Gemini Pro προσφέρει πιο προηγμένη συλλογιστική, προγραμματισμό και γραφή, καθώς και κατανόηση και σύνοψη περιεχομένου. Η Google είπε συγκεκριμένα ότι η απόδοση ξεπερνά το GPT 3.5 (σε έξι από τα οκτώ σημεία αναφοράς, συμπεριλαμβανομένων των MMLU και GSM8K), και είπε ότι προσφέρει τη μεγαλύτερη βελτίωση ποιότητας στον Bard από την κυκλοφορία του.
Σε τυφλές αξιολογήσεις με τους τρίτους αξιολογητές μας, ο Bard είναι πλέον το πιο προτιμώμενο δωρεάν chatbot σε σύγκριση με κορυφαίες εναλλακτικές λύσεις.
Το Bard with Gemini Pro κυκλοφορεί σήμερα στα αγγλικά για 170 χώρες/επικράτειες, με διαθεσιμότητα στο Ηνωμένο Βασίλειο και την Ευρώπη «στο εγγύς μέλλον». Αρχικά, το Gemini Pro θα τροφοδοτεί τις προτροπές που βασίζονται σε κείμενο, με υποστήριξη για “άλλες λεπτομέρειες σύντομα”.
Εν τω μεταξύ, το Gemini Ultra έρχεται στις αρχές του επόμενου έτους. Η Google «ολοκληρώνει εκτενείς ελέγχους εμπιστοσύνης και ασφάλειας», καθώς και βελτιώσεις μοντέλων, πριν από την ευρύτερη διαθεσιμότητα για προγραμματιστές και εταιρικούς πελάτες.
Θα είναι διαθέσιμο μέσω μιας νέας προσφοράς “Bard Advanced”, την οποία η Google τοποθετεί ότι παρέχει έγκαιρη πρόσβαση στα πιο προηγμένα μοντέλα και τις δυνατότητές της, όπως το Gemini Ultra.
Τους επόμενους μήνες, το Gemini έρχεται στην Αναζήτηση Google, το Chrome, το Duet AI και τις διαφημίσεις. Οι πρώιμες δοκιμές έχουν δείξει ότι ο Gemini μειώνει την καθυστέρηση SGE (Search Generative Experience) κατά 40%.
VIA:
9to5google.com