Google Gemini: Όλα όσα πρέπει να γνωρίζετε για τη νέα πλατφόρμα δημιουργίας τεχνητής νοημοσύνης

By

Marizas Dimitris

On

Ιαν 7, 2024

Η

Google

προσπαθεί να κάνει τα κύματα με το Gemini, μια νέα παραγωγική πλατφόρμα τεχνητής νοημοσύνης που πρόσφατα έκανε το μεγάλο της ντεμπούτο. Όμως, ενώ ο Δίδυμος φαίνεται να είναι πολλά υποσχόμενος σε ορισμένες πτυχές, υστερεί σε άλλες. Τι είναι λοιπόν ο Δίδυμος; Πώς μπορείτε να το χρησιμοποιήσετε; Και πώς ανταποκρίνεται στον ανταγωνισμό;

Για να είναι πιο εύκολο να παρακολουθείτε τις τελευταίες εξελίξεις του Gemini, έχουμε συγκεντρώσει αυτόν τον εύχρηστο οδηγό, τον οποίο θα ενημερώνουμε καθώς κυκλοφορούν νέα μοντέλα και λειτουργίες Gemini.

Τι είναι ο Δίδυμος;

Το Gemini είναι της Google

από καιρό υποσχεθεί

, οικογένεια μοντέλων τεχνητής νοημοσύνης επόμενης γενιάς, που αναπτύχθηκε από τα ερευνητικά εργαστήρια τεχνητής νοημοσύνης της Google, DeepMind και Google Research. Κυκλοφορεί σε τρεις γεύσεις:

Gemini Ultra

το εμβληματικό μοντέλο Gemini
Gemini Pro

ένα «lite» μοντέλο Gemini
Δίδυμοι Νάνο

ένα μικρότερο «αποσταγμένο» μοντέλο που τρέχει σε κινητές συσκευές όπως το

Pixel

8 Pro

Όλα τα μοντέλα Gemini εκπαιδεύτηκαν ώστε να είναι «εγγενώς πολυτροπικά» — με άλλα λόγια, ικανά να δουλεύουν και να χρησιμοποιούν περισσότερα από κείμενο. Ήταν προεκπαιδευμένοι και βελτιστοποιημένοι σε ποικίλους ήχους, εικόνες και βίντεο, ένα μεγάλο σύνολο βάσεων κωδικών και κείμενο σε διαφορετικές γλώσσες.

Αυτό ξεχωρίζει το Gemini από μοντέλα όπως το μοντέλο LaMDA της Google σε μεγάλη γλώσσα, το οποίο εκπαιδεύτηκε μόνο σε δεδομένα κειμένου. Το LaMDA δεν μπορεί να καταλάβει ή να δημιουργήσει τίποτα άλλο εκτός από κείμενο (π.χ. δοκίμια, προσχέδια email και ούτω καθεξής) — αλλά αυτό δεν συμβαίνει με τα μοντέλα Gemini. Η ικανότητά τους να κατανοούν εικόνες, ήχο και άλλους τρόπους είναι ακόμα περιορισμένη, αλλά είναι καλύτερο από το τίποτα.

Ποια είναι η διαφορά μεταξύ Bard και Gemini;

Συντελεστές εικόνας:

Google

Η Google, αποδεικνύοντας για άλλη μια φορά ότι δεν έχει ταλέντο στο branding, δεν ξεκαθάρισε εξαρχής ότι το Gemini είναι ξεχωριστό και διαφορετικό από τον Bard. Το Bard είναι απλώς μια διεπαφή μέσω της οποίας είναι δυνατή η πρόσβαση σε ορισμένα μοντέλα Gemini – σκεφτείτε το ως μια εφαρμογή ή πελάτης για τα Gemini και άλλα μοντέλα τεχνητής νοημοσύνης της γενιάς. Το Gemini, από την άλλη πλευρά, είναι μια οικογένεια μοντέλων – όχι μια εφαρμογή ή ένα frontend. Δεν υπάρχει αυτόνομη εμπειρία Διδύμων, ούτε πιθανότατα θα υπάρξει ποτέ. Αν έπρεπε να συγκρίνετε με τα

προϊόντα

του OpenAI, το Bard αντιστοιχεί στο ChatGPT, τη δημοφιλή εφαρμογή συνομιλίας AI του OpenAI και το Gemini αντιστοιχεί στο μοντέλο γλώσσας που το τροφοδοτεί, το οποίο στην περίπτωση του ChatGPT είναι το GPT-3.5 ή το 4.

Παρεμπιπτόντως, το Gemini είναι επίσης εντελώς ανεξάρτητο από το Imagen-2, ένα μοντέλο κειμένου σε εικόνα που μπορεί να ταιριάζει ή όχι στη συνολική στρατηγική AI της εταιρείας. Μην ανησυχείτε, δεν είστε ο μόνος που μπερδεύεται με αυτό!

Τι μπορεί να κάνει ο Δίδυμος;

Επειδή τα μοντέλα Gemini είναι πολυτροπικά, μπορούν θεωρητικά να εκτελέσουν μια σειρά εργασιών, από τη μεταγραφή ομιλίας έως τη δημιουργία λεζάντας εικόνων και βίντεο έως τη δημιουργία έργων τέχνης. Λίγες από αυτές τις δυνατότητες έχουν φτάσει ακόμη στο στάδιο του προϊόντος (περισσότερα για αυτό αργότερα), αλλά η Google τα υπόσχεται όλα —και περισσότερα— κάποια στιγμή στο όχι και τόσο μακρινό μέλλον.

Φυσικά, είναι λίγο δύσκολο να πάρεις την εταιρεία στα λόγια της.

Η Google υπο-παραδόθηκε σοβαρά με την αρχική κυκλοφορία του Bard. Και πιο πρόσφατα έπληξε τα φτερά με ένα βίντεο που υποτίθεται ότι δείχνει τις ικανότητες του Διδύμου που αποδείχτηκε ότι ήταν βαριά επεξεργασμένες και ήταν λίγο πολύ φιλόδοξες. Δίδυμοι

είναι

προς τιμή του τεχνολογικού γίγαντα, διαθέσιμο σε κάποια μορφή σήμερα — αλλά σε μάλλον περιορισμένη μορφή.

Ωστόσο, αν υποθέσουμε ότι η Google είναι λίγο πολύ ειλικρινής με τους ισχυρισμούς της, ορίστε τι θα μπορούν να κάνουν οι διαφορετικές βαθμίδες των μοντέλων Gemini μόλις κυκλοφορήσουν:

Gemini Ultra

Λίγοι άνθρωποι έχουν πάρει τα χέρια τους στο Gemini Ultra, το μοντέλο «θεμελίωσης» πάνω στο οποίο έχουν χτιστεί τα άλλα, μέχρι στιγμής — απλώς ένα «επιλεγμένο σύνολο» πελατών σε μια χούφτα εφαρμογές και υπηρεσίες Google. Αυτό δεν θα αλλάξει παρά λίγο αργότερα φέτος, όταν το μεγαλύτερο μοντέλο της Google θα κυκλοφορήσει ευρύτερα. Οι περισσότερες πληροφορίες σχετικά με το Ultra προέρχονται από επιδείξεις προϊόντων που ηγούνται της Google, επομένως είναι καλύτερο να λαμβάνονται με λίγο αλάτι.

Η Google λέει ότι το Gemini Ultra μπορεί να χρησιμοποιηθεί για να βοηθήσει με πράγματα όπως οι ασκήσεις φυσικής, η επίλυση προβλημάτων βήμα προς βήμα σε ένα φύλλο εργασίας και η επισήμανση πιθανών λαθών σε ήδη συμπληρωμένες απαντήσεις. Το Gemini Ultra μπορεί επίσης να εφαρμοστεί σε εργασίες όπως ο εντοπισμός επιστημονικών εργασιών σχετικών με ένα συγκεκριμένο πρόβλημα, λέει η Google — εξαγωγή πληροφοριών από αυτές τις εργασίες και «ενημέρωση» ενός γραφήματος από ένα, δημιουργώντας τους τύπους που είναι απαραίτητοι για την αναδημιουργία του γραφήματος με πιο πρόσφατα δεδομένα.

Το Gemini Ultra υποστηρίζει τεχνικά τη δημιουργία εικόνων, όπως αναφέρθηκε προηγουμένως. Αλλά αυτή η δυνατότητα δεν θα μπει στην παραγωγική έκδοση του μοντέλου κατά την κυκλοφορία, σύμφωνα με την Google — ίσως επειδή ο μηχανισμός είναι πιο περίπλοκος από το πώς οι εφαρμογές όπως το ChatGPT δημιουργούν εικόνες. Αντί να ζητά τροφοδοσία σε μια γεννήτρια εικόνων (όπως το DALL-E 3, στην περίπτωση του ChatGPT), το Gemini εξάγει εικόνες “εγγενώς” χωρίς ενδιάμεσο βήμα.

Gemini Pro

Σε αντίθεση με το Gemini Ultra, το Gemini Pro είναι διαθέσιμο δημόσια σήμερα. Αλλά προκαλεί σύγχυση, οι δυνατότητές του εξαρτώνται από το πού χρησιμοποιείται.

Η Google λέει ότι στο Bard, όπου το Gemini Pro κυκλοφόρησε για πρώτη φορά σε μορφή μόνο κειμένου, το μοντέλο είναι μια βελτίωση σε σχέση με το LaMDA στις δυνατότητές του συλλογισμού, σχεδιασμού και κατανόησης. Ένας ανεξάρτητος

μελέτη

Οι ερευνητές του Carnegie Mellon και του BerriAI διαπίστωσαν ότι το Gemini Pro είναι όντως καλύτερο από το GPT-3.5 του OpenAI στον χειρισμό μακρύτερων και πιο σύνθετων αλυσίδων συλλογισμού.

Αλλά η μελέτη διαπίστωσε επίσης ότι, όπως όλα τα μεγάλα γλωσσικά μοντέλα, το Gemini Pro παλεύει ιδιαίτερα με μαθηματικά προβλήματα που περιλαμβάνουν πολλά ψηφία και οι χρήστες έχουν βρει πολλά παραδείγματα κακών συλλογισμών και λαθών. Έκανε πολλά πραγματικά λάθη για απλές ερωτήσεις όπως ποιος κέρδισε τα τελευταία Όσκαρ. Η Google έχει υποσχεθεί βελτιώσεις, αλλά δεν είναι σαφές πότε θα φτάσουν.

Το Gemini Pro είναι επίσης διαθέσιμο μέσω API στο Vertex AI, την πλήρως διαχειριζόμενη πλατφόρμα προγραμματιστών τεχνητής νοημοσύνης της Google, η οποία δέχεται κείμενο ως είσοδο και δημιουργεί κείμενο ως έξοδο. Ένα επιπλέον τελικό σημείο, το Gemini Pro Vision, μπορεί να επεξεργαστεί κείμενο

και

εικόνες — συμπεριλαμβανομένων φωτογραφιών και βίντεο — και εξαγωγή κειμένου σύμφωνα με το μοντέλο GPT-4 του OpenAI με Vision.

Google Gemini: Όλα όσα πρέπει να γνωρίζετε για τη νέα πλατφόρμα δημιουργίας τεχνητής νοημοσύνης, Google Gemini: Όλα όσα πρέπει να γνωρίζετε για τη νέα πλατφόρμα δημιουργίας τεχνητής νοημοσύνης, TechWar.GR

Χρήση Gemini Pro στο Vertex AI.

Στο Vertex AI, οι προγραμματιστές μπορούν να προσαρμόσουν το Gemini Pro σε συγκεκριμένα περιβάλλοντα και να χρησιμοποιήσουν περιπτώσεις χρησιμοποιώντας μια διαδικασία λεπτομέρειας ή «γείωσης». Το Gemini Pro μπορεί επίσης να συνδεθεί με εξωτερικά API τρίτων για την εκτέλεση συγκεκριμένων ενεργειών.

Κάποια στιγμή στις «αρχές του 2024», οι πελάτες της Vertex θα μπορούν να πατήσουν το Gemini Pro για να τροφοδοτήσουν προσαρμοσμένους πράκτορες συνομιλίας φωνής και συνομιλίας (π.χ. chatbots). Το Gemini Pro θα γίνει επίσης μια επιλογή για την προώθηση των δυνατοτήτων σύνοψης αναζήτησης, προτάσεων και δημιουργίας απαντήσεων στο Vertex AI, αξιοποιώντας έγγραφα σε διάφορες μορφές (π.χ. PDF, εικόνες) από διαφορετικές πηγές (π.χ.

OneDrive

, Salesforce) για την ικανοποίηση ερωτημάτων.

Συντελεστές εικόνας:

Δίδυμοι

Στο AI Studio, το διαδικτυακό εργαλείο της Google για προγραμματιστές εφαρμογών και πλατφορμών, υπάρχουν ροές εργασιών για τη δημιουργία ελεύθερης μορφής, δομημένων μηνυμάτων και μηνυμάτων συνομιλίας χρησιμοποιώντας το Gemini Pro. Οι προγραμματιστές έχουν πρόσβαση τόσο στο Gemini Pro όσο και στα τελικά σημεία του Gemini Pro Vision και μπορούν να προσαρμόσουν τη θερμοκρασία του μοντέλου για να ελέγξουν το δημιουργικό εύρος της παραγωγής και να παρέχουν παραδείγματα για να δώσουν οδηγίες τόνου και στυλ — και επίσης να συντονίσουν τις ρυθμίσεις ασφαλείας.

Δίδυμοι Νάνο

Το Gemini Nano είναι μια πολύ μικρότερη έκδοση των μοντέλων Gemini Pro και Ultra και είναι αρκετά αποτελεσματική για να εκτελείται απευθείας σε (ορισμένα) τηλέφωνα αντί να στέλνεται η εργασία σε έναν διακομιστή κάπου. Μέχρι στιγμής τροφοδοτεί δύο λειτουργίες στο Pixel 8 Pro: Σύνοψη στο Recorder και Έξυπνη απάντηση στο Gboard.

Η εφαρμογή Recorder, η οποία επιτρέπει στους χρήστες να πατήσουν ένα κουμπί για εγγραφή και μεταγραφή ήχου, περιλαμβάνει μια σύνοψη των ηχογραφημένων συνομιλιών, των συνεντεύξεων, των παρουσιάσεων και άλλων αποσπασμάτων σας με υποστήριξη Gemini. Οι χρήστες λαμβάνουν αυτές τις περιλήψεις, ακόμη και αν δεν έχουν διαθέσιμο σήμα ή σύνδεση Wi-Fi — και σε ένδειξη απορρήτου, κανένα δεδομένο δεν αφήνει το τηλέφωνό τους στη διαδικασία.

Το Gemini Nano βρίσκεται επίσης στο Gboard, την εφαρμογή πληκτρολογίου της Google, ως α

προεπισκόπηση προγραμματιστή

. Εκεί, ενεργοποιεί μια λειτουργία που ονομάζεται Έξυπνη απάντηση, η οποία σας βοηθά να προτείνετε το επόμενο πράγμα που θέλετε να πείτε όταν κάνετε μια συνομιλία σε μια εφαρμογή ανταλλαγής μηνυμάτων. Η λειτουργία αρχικά λειτουργεί μόνο με το WhatsApp, αλλά θα έρθει σε περισσότερες εφαρμογές το 2024, λέει η Google.

Είναι το Gemini καλύτερο από το GPT-4 του OpenAI;

Δεν υπάρχει τρόπος να μάθετε πώς η οικογένεια των Διδύμων

Πραγματικά

συσσωρεύεται έως ότου η Google κυκλοφορήσει το Ultra αργότερα αυτό το έτος, αλλά η εταιρεία έχει διεκδικήσει βελτιώσεις στην τελευταία λέξη της τεχνολογίας — που είναι συνήθως το GPT-4 του OpenAI.

Η Google έχει υποστηρίξει αρκετές φορές την ανωτερότητα του Gemini στα σημεία αναφοράς, υποστηρίζοντας ότι το Gemini Ultra υπερβαίνει τα τρέχοντα αποτελέσματα τελευταίας τεχνολογίας σε «30 από τα 32 ευρέως χρησιμοποιούμενα ακαδημαϊκά κριτήρια αναφοράς που χρησιμοποιούνται στην έρευνα και ανάπτυξη μεγάλων γλωσσικών μοντέλων». Η εταιρεία λέει ότι το Gemini Pro, εν τω μεταξύ, είναι πιο ικανό σε εργασίες όπως η σύνοψη περιεχομένου, ο καταιγισμός ιδεών και η γραφή από το GPT-3.5.

Αλλά αφήνοντας κατά μέρος το ερώτημα εάν τα σημεία αναφοράς υποδεικνύουν πραγματικά ένα καλύτερο μοντέλο, οι βαθμολογίες που επισημαίνει η Google φαίνεται να είναι οριακά καλύτερες από τα αντίστοιχα μοντέλα του OpenAI. Και — όπως αναφέρθηκε προηγουμένως — ορισμένες πρώτες εντυπώσεις δεν ήταν εξαιρετικές, με χρήστες και

ακαδημαϊκοί

επισημαίνοντας ότι το Gemini Pro τείνει να κάνει λάθος τα βασικά στοιχεία, παλεύει με τις μεταφράσεις και δίνει κακές προτάσεις κωδικοποίησης.

Πόσο θα κοστίσει το Gemini;

Το Gemini Pro είναι δωρεάν για χρήση στο Bard και, προς το παρόν, στο AI Studio και στο Vertex AI.

Μόλις το Gemini Pro εξέλθει από την προεπισκόπηση στο Vertex, ωστόσο, το μοντέλο θα κοστίζει 0,0025 $ ανά χαρακτήρα ενώ η έξοδος θα κοστίζει 0,00005 $ ανά χαρακτήρα. Οι πελάτες Vertex πληρώνουν ανά 1.000 χαρακτήρες (περίπου 140 έως 250 λέξεις) και, στην περίπτωση μοντέλων όπως το Gemini Pro Vision, ανά εικόνα (0,0025 $).

Ας υποθέσουμε ότι ένα άρθρο 500 λέξεων περιέχει 2.000 χαρακτήρες. Η περίληψη αυτού του άρθρου με το Gemini Pro θα κόστιζε 5 $. Εν τω μεταξύ,

δημιουργώντας

ένα άρθρο παρόμοιου μήκους θα κόστιζε 0,1 $.

Πού μπορείτε να δοκιμάσετε το Gemini;

Gemini Pro

Το πιο εύκολο μέρος για να γνωρίσετε το Gemini Pro είναι στο Bard. Μια τελειοποιημένη έκδοση του Pro απαντά σε ερωτήματα Bard που βασίζονται σε κείμενο στα Αγγλικά στις ΗΠΑ αυτή τη στιγμή, με επιπλέον γλώσσες και υποστηριζόμενες χώρες να φτάσουν στη γραμμή.

Το Gemini Pro είναι επίσης προσβάσιμο σε προεπισκόπηση στο Vertex AI μέσω ενός API. Το API είναι δωρεάν προς χρήση «εντός ορίων» προς το παρόν και υποστηρίζει 38 γλώσσες και περιοχές, συμπεριλαμβανομένης της Ευρώπης, καθώς και λειτουργίες όπως η λειτουργικότητα συνομιλίας και το φιλτράρισμα.

Αλλού, το Gemini Pro μπορεί να βρεθεί στο AI Studio. Χρησιμοποιώντας την υπηρεσία, οι προγραμματιστές μπορούν να επαναλάβουν προτροπές και chatbot που βασίζονται σε Gemini και, στη συνέχεια, να λάβουν κλειδιά API για να τα χρησιμοποιήσουν στις εφαρμογές τους — ή να εξάγουν τον κώδικα σε ένα πιο πλήρως εξοπλισμένο IDE.

Duet AI για προγραμματιστές

, η σουίτα εργαλείων βοήθειας της Google με τεχνητή νοημοσύνη για τη συμπλήρωση και τη δημιουργία κώδικα, θα αρχίσει να χρησιμοποιεί ένα μοντέλο Gemini τις επόμενες εβδομάδες. Και η Google σχεδιάζει να φέρει τα μοντέλα Gemini στα εργαλεία προγραμματισμού για το Chrome και την πλατφόρμα κινητών προγραμματιστών Firebase περίπου την ίδια περίοδο, στις αρχές του 2024.

Δίδυμοι Νάνο

Το Gemini Nano βρίσκεται στο Pixel 8 Pro — και θα έρθει και σε άλλες συσκευές στο μέλλον. Οι προγραμματιστές που ενδιαφέρονται να ενσωματώσουν το μοντέλο στις εφαρμογές τους Android μπορούν

Εγγραφείτε

για μια κλεφτή ματιά.

Θα διατηρήσουμε αυτήν την ανάρτηση ενημερωμένη για τις τελευταίες εξελίξεις.

VIA:

techcrunch.com