Google Gemini: Όλα όσα πρέπει να γνωρίζετε για τη νέα πλατφόρμα δημιουργίας τεχνητής νοημοσύνης



Η Google προσπαθεί να κάνει πάταγο με το Gemini, μια εμβληματική σουίτα μοντέλων, εφαρμογών και υπηρεσιών τεχνητής νοημοσύνης. Όμως, ενώ ο Δίδυμος φαίνεται να είναι πολλά υποσχόμενος σε μερικές πτυχές, υστερεί σε άλλες – όπως αποκάλυψε η άτυπη ανασκόπησή μας.

Τι είναι λοιπόν ο Δίδυμος; Πώς μπορείτε να το χρησιμοποιήσετε;

πώς ανταποκρίνεται στον ανταγωνισμό;

Για να είναι πιο εύκολο να παρακολουθείτε τις τελευταίες εξελίξεις του Gemini, έχουμε συγκεντρώσει αυτόν τον εύχρηστο οδηγό, τον οποίο θα ενημερώνουμε καθώς κυκλοφορούν νέα μοντέλα και λειτουργίες Gemini.

Τι είναι ο Δίδυμος;

Το Gemini είναι της Google

από καιρό υποσχέθηκε

, οικογένεια μοντέλων GenAI επόμενης γενιάς, που αναπτύχθηκε από τα ερευνητικά εργαστήρια τεχνητής νοημοσύνης της Google, DeepMind και Google Research. Κυκλοφορεί σε τρεις γεύσεις:


  • Gemini Ultra

    το εμβληματικό μοντέλο Gemini.

  • Gemini Pro

    ένα «lite» μοντέλο Gemini.

  • Δίδυμοι Νάνο

    ένα μικρότερο «αποσταγμένο» μοντέλο που τρέχει σε κινητές συσκευές όπως το Pixel 8 Pro.

Όλα τα μοντέλα Gemini εκπαιδεύτηκαν ώστε να είναι «εγγενώς πολυτροπικά» — με άλλα λόγια, ικανά να δουλεύουν και να χρησιμοποιούν περισσότερα από λέξεις. Ήταν προεκπαιδευμένοι και βελτιωμένοι σε μια ποικιλία ήχου, εικόνων και βίντεο, ένα μεγάλο σύνολο βάσεων κωδικών και κειμένου σε διαφορετικές γλώσσες.

Αυτό ξεχωρίζει το Gemini από μοντέλα όπως το LaMDA της Google, το οποίο εκπαιδεύτηκε αποκλειστικά σε δεδομένα κειμένου. Το LaMDA δεν μπορεί να καταλάβει ή να δημιουργήσει τίποτα άλλο εκτός από κείμενο (π.χ. δοκίμια, προσχέδια email), αλλά αυτό δεν συμβαίνει με τα μοντέλα Gemini.

Ποια είναι η διαφορά μεταξύ των εφαρμογών Gemini και των μοντέλων Gemini;


Συντελεστές εικόνας:

Google

Η Google, αποδεικνύοντας για άλλη μια φορά ότι δεν έχει ταλέντο στο branding, δεν ξεκαθάρισε εξαρχής ότι το Gemini είναι ξεχωριστό και ξεχωριστό από τις εφαρμογές Gemini στον ιστό και στα κινητά (πρώην Bard). Οι εφαρμογές Gemini είναι απλώς μια διεπαφή μέσω της οποίας είναι δυνατή η πρόσβαση σε ορισμένα μοντέλα Gemini — σκεφτείτε το ως πελάτη για το GenAI της Google.

Παρεμπιπτόντως, οι εφαρμογές και τα μοντέλα Gemini είναι επίσης εντελώς ανεξάρτητα από το Imagen 2, το μοντέλο κειμένου σε εικόνα της Google που είναι διαθέσιμο σε ορισμένα από τα εργαλεία προγραμματισμού και τα περιβάλλοντα της εταιρείας. Μην ανησυχείτε – δεν είστε ο μόνος που μπερδεύεται με αυτό.

Τι μπορεί να κάνει ο Δίδυμος;

Επειδή τα μοντέλα Gemini είναι πολυτροπικά, μπορούν θεωρητικά να εκτελέσουν μια σειρά από πολυτροπικές εργασίες, από τη μεταγραφή ομιλίας έως τη δημιουργία λεζάντας εικόνων και βίντεο έως τη δημιουργία έργων

ς. Λίγες από αυτές τις δυνατότητες έχουν φτάσει ακόμη στο στάδιο του προϊόντος (περισσότερα για αυτό αργότερα), αλλά η Google τα υπόσχεται όλα —και περισσότερα— κάποια στιγμή στο όχι και τόσο μακρινό μέλλον.

Φυσικά, είναι λίγο δύσκολο να πάρεις την εταιρεία στα λόγια της.

Η Google υποπαρέδωσε σοβαρά με την αρχική κυκλοφορία του Bard. Και πιο πρόσφατα έπληξε τα φτερά με ένα βίντεο που υποτίθεται ότι δείχνει τις ικανότητες του Διδύμου που αποδείχτηκε ότι ήταν βαριά επεξεργασμένες και ήταν λίγο πολύ φιλόδοξες.

Ωστόσο, αν υποθέσουμε ότι η Google είναι λίγο πολύ ειλικρινής με τους ισχυρισμούς της, ορίστε τι θα μπορούν να κάνουν οι διαφορετικές βαθμίδες των Διδύμων μόλις αξιοποιήσουν πλήρως τις δυνατότητές τους:

Gemini Ultra

Η Google λέει ότι το Gemini Ultra — χάρη στην πολυτροπικότητά του — μπορεί να χρησιμοποιηθεί για να βοηθήσει με πράγματα όπως την εργασία της φυσικής, την επίλυση προβλημάτων βήμα προς βήμα σε ένα φύλλο εργασίας και την επισήμανση πιθανών λαθών σε ήδη συμπληρωμένες απαντήσεις.

Το Gemini Ultra μπορεί επίσης να εφαρμοστεί σε εργασίες όπως ο εντοπισμός επιστημονικών εργασιών σχετικών με ένα συγκεκριμένο πρόβλημα, λέει η Google — εξαγωγή πληροφοριών από αυτές τις εργασίες και «ενημέρωση» ενός γραφήματος από ένα δημιουργώντας τους τύπους που είναι απαραίτητοι για την εκ νέου δημιουργία του γραφήματος με πιο πρόσφατα δεδομένα .

Το Gemini Ultra υποστηρίζει τεχνικά τη δημιουργία εικόνων, όπως αναφέρθηκε προηγουμένως. Αλλά αυτή η δυνατότητα δεν έχει φτάσει ακόμα στην παραγωγική έκδοση του μοντέλου – ίσως επειδή ο μηχανισμός είναι πιο περίπλοκος από το πώς οι εφαρμογές όπως το ChatGPT δημιουργούν εικόνες. Αντί να ζητά τροφοδοσία σε μια γεννήτρια εικόνων (όπως το DALL-E 3, στην περίπτωση του ChatGPT), το Gemini εξάγει εικόνες “εγγενώς”, χωρίς ενδιάμεσο βήμα.

Το Gemini Ultra είναι διαθέσιμο ως API μέσω του Vertex AI, της πλήρως διαχειριζόμενης πλατφόρμας προγραμματιστών AI της Google και του AI Studio, του διαδικτυακού εργαλείου της Google για προγραμματιστές εφαρμογών και πλατφορμών. Τροφοδοτεί επίσης τις εφαρμογές Gemini — αλλά όχι δωρεάν. Η πρόσβαση στο Gemini Ultra μέσω αυτού που η Google αποκαλεί Gemini Advanced απαιτεί συνδρομή στο Google One AI Premium Πρόγραμμα, με τιμή 20 $ ανά μήνα.

Το πρόγραμμα AI Premium συνδέει επίσης το Gemini με τον ευρύτερο λογαριασμό σας στο Google Workspace — σκεφτείτε μηνύματα ηλεκτρονικού ταχυδρομείου στο Gmail, έγγραφα στα Έγγραφα, παρουσιάσεις σε Φύλλα και εγγραφές στο Google Meet. Αυτό είναι χρήσιμο, για παράδειγμα, για τη σύνοψη μηνυμάτων ηλεκτρονικού ταχυδρομείου ή τη λήψη σημειώσεων από το Gemini κατά τη διάρκεια μιας βιντεοκλήσης.

Gemini Pro

Η Google λέει ότι το Gemini Pro είναι μια βελτίωση σε σχέση με το LaMDA στις δυνατότητές του συλλογισμού, σχεδιασμού και κατανόησης.

Ένας ανεξάρτητος

μελέτη

Οι ερευνητές του Carnegie Mellon και του BerriAI διαπίστωσαν ότι το Gemini Pro είναι όντως καλύτερο από το GPT-3.5 του OpenAI στον χειρισμό μακρύτερων και πιο σύνθετων αλυσίδων συλλογισμού. Αλλά η μελέτη διαπίστωσε επίσης ότι, όπως όλα τα μεγάλα γλωσσικά μοντέλα, το Gemini Pro παλεύει ιδιαίτερα με μαθηματικά προβλήματα που περιλαμβάνουν πολλά ψηφία και οι χρήστες έχουν βρει πολλά παραδείγματα κακών συλλογισμών και λαθών.

Ωστόσο, οι υποσχεθείσες βελτιώσεις της Google — και η πρώτη έφτασε με τη μορφή του Gemini 1.5 Pro.

Σχεδιασμένο για να αντικαταστήσει το Gemini 1.5 Pro (προς το παρόν σε προεπισκόπηση) έχει βελτιωθεί σε πολλούς τομείς σε σύγκριση με τον προκάτοχό του, ίσως το πιο σημαντικό στον όγκο των δεδομένων που μπορεί να επεξεργαστεί. Το Gemini 1.5 Pro μπορεί (σε περιορισμένη ιδιωτική προεπισκόπηση) να λάβει ~700.000 λέξεις ή ~30.000 γραμμές κώδικα — 35 φορές το ποσό που μπορεί να χειριστεί το Gemini 1.0 Pro. Και — το μοντέλο είναι πολυτροπικό — δεν περιορίζεται σε κείμενο. Το Gemini 1.5 Pro μπορεί να αναλύσει έως και 11 ώρες ήχου ή μία ώρα βίντεο σε μια ποικιλία διαφορετικών γλωσσών, αν και αργά (π.χ., η αναζήτηση μιας σκηνής σε ένα βίντεο διάρκειας μιας ώρας διαρκεί 30 δευτερόλεπτα έως ένα λεπτό επεξεργασίας).

Το Gemini Pro είναι επίσης διαθέσιμο μέσω API στο Vertex AI για να δέχεται κείμενο ως είσοδο και να δημιουργεί κείμενο ως έξοδο. Ένα επιπλέον τελικό σημείο, το Gemini Pro Vision, μπορεί να επεξεργαστεί κείμενο

και

εικόνες — συμπεριλαμβανομένων φωτογραφιών και βίντεο — και εξαγωγή κειμένου σύμφωνα με το μοντέλο GPT-4 του OpenAI με Vision.

Δίδυμοι

Χρήση Gemini Pro στο Vertex AI.

Συντελεστές εικόνας:

Δίδυμοι

Στο Vertex AI, οι προγραμματιστές μπορούν να προσαρμόσουν το Gemini Pro σε συγκεκριμένα περιβάλλοντα και να χρησιμοποιήσουν περιπτώσεις χρησιμοποιώντας μια διαδικασία λεπτομέρειας ή «γείωσης». Το Gemini Pro μπορεί επίσης να συνδεθεί με εξωτερικά API τρίτων για την εκτέλεση συγκεκριμένων ενεργειών.

Στο AI Studio, υπάρχουν ροές εργασίας για τη δημιουργία δομημένων μηνυμάτων συνομιλίας χρησιμοποιώντας το Gemini Pro. Οι προγραμματιστές έχουν πρόσβαση τόσο στο Gemini Pro όσο και στα τελικά σημεία του Gemini Pro Vision και μπορούν να προσαρμόσουν τη θερμοκρασία του μοντέλου για να ελέγξουν το δημιουργικό εύρος της παραγωγής και να παρέχουν παραδείγματα για να δώσουν οδηγίες τόνου και στυλ — και επίσης να συντονίσουν τις ρυθμίσεις ασφαλείας.

Δίδυμοι Νάνο

Το Gemini Nano είναι μια πολύ μικρότερη έκδοση των μοντέλων Gemini Pro και Ultra και είναι αρκετά αποτελεσματική για να εκτελείται απευθείας σε (ορισμένα) τηλέφωνα αντί να στέλνεται η εργασία σε έναν διακομιστή κάπου. Μέχρι στιγμής τροφοδοτεί δύο λειτουργίες στο Pixel 8 Pro: Σύνοψη στο Recorder και Έξυπνη απάντηση στο Gboard.

Η εφαρμογή Recorder, η οποία επιτρέπει στους χρήστες να πατήσουν ένα κουμπί για εγγραφή και μεταγραφή ήχου, περιλαμβάνει μια σύνοψη των ηχογραφημένων συνομιλιών, των συνεντεύξεων, των παρουσιάσεων και άλλων αποσπασμάτων σας με υποστήριξη Gemini. Οι χρήστες λαμβάνουν αυτές τις περιλήψεις, ακόμη και αν δεν έχουν διαθέσιμο σήμα ή σύνδεση Wi-Fi — και σε ένδειξη απορρήτου, κανένα δεδομένο δεν αφήνει το τηλέφωνό τους στη διαδικασία.

Το Gemini Nano βρίσκεται επίσης στο Gboard, την εφαρμογή πληκτρολογίου της Google, ως α

προεπισκόπηση προγραμματιστή

. Εκεί, ενεργοποιεί μια λειτουργία που ονομάζεται Έξυπνη απάντηση, η οποία σας βοηθά να προτείνετε το επόμενο πράγμα που θέλετε να πείτε όταν κάνετε μια συνομιλία σε μια εφαρμογή ανταλλαγής μηνυμάτων. Η λειτουργία αρχικά λειτουργεί μόνο με το

, αλλά θα έρθει σε περισσότερες εφαρμογές το

, λέει η Google.

Είναι το Gemini καλύτερο από το GPT-4 του OpenAI;

Η Google έχει αρκετές φορές

διαφημίζεται

Η υπεροχή του Gemini στα σημεία αναφοράς, ισχυριζόμενος ότι το Gemini Ultra υπερβαίνει τα τρέχοντα αποτελέσματα τελευταίας τεχνολογίας σε «30 από τα 32 ευρέως χρησιμοποιούμενα ακαδημαϊκά σημεία αναφοράς που χρησιμοποιούνται στην έρευνα και ανάπτυξη μεγάλων γλωσσικών μοντέλων». Η εταιρεία λέει ότι το Gemini Pro, εν τω μεταξύ, είναι πιο ικανό σε εργασίες όπως η σύνοψη περιεχομένου, ο καταιγισμός ιδεών και η γραφή από το GPT-3.5.

Αλλά αφήνοντας κατά μέρος το ερώτημα εάν τα σημεία αναφοράς υποδεικνύουν πραγματικά ένα καλύτερο μοντέλο, οι βαθμολογίες που επισημαίνει η Google φαίνεται να είναι οριακά καλύτερες από τα αντίστοιχα μοντέλα του OpenAI. Και — όπως αναφέρθηκε προηγουμένως — ορισμένες πρώτες εντυπώσεις δεν ήταν εξαιρετικές, με χρήστες και

ακαδημαϊκοί

επισημαίνοντας ότι το Gemini Pro τείνει να κάνει λάθος τα βασικά στοιχεία, παλεύει με τις μεταφράσεις και δίνει κακές προτάσεις κωδικοποίησης.

Πόσο θα κοστίσει το Gemini;

Το Gemini Pro είναι δωρεάν για χρήση στις εφαρμογές Gemini και, προς το παρόν, στο AI Studio και στο Vertex AI.

Μόλις το Gemini Pro εξέλθει από την προεπισκόπηση στο Vertex, ωστόσο, το μοντέλο θα κοστίζει 0,0025 $ ανά χαρακτήρα ενώ η έξοδος θα κοστίζει 0,00005 $ ανά χαρακτήρα. Οι πελάτες Vertex πληρώνουν ανά 1.000 χαρακτήρες (περίπου 140 έως 250 λέξεις) και, στην περίπτωση μοντέλων όπως το Gemini Pro Vision, ανά εικόνα (0,0025 $).

Ας υποθέσουμε ότι ένα άρθρο 500 λέξεων περιέχει 2.000 χαρακτήρες. Η περίληψη αυτού του άρθρου με το Gemini Pro θα κόστιζε 5 $. Εν τω μεταξύ, η δημιουργία ενός άρθρου παρόμοιου μήκους θα κόστιζε 0,1 $.

Η Ultra τιμολόγηση δεν έχει ακόμη ανακοινωθεί.

Πού μπορείτε να δοκιμάσετε το Gemini;

Gemini Pro

Το πιο εύκολο μέρος για να γνωρίσετε το Gemini Pro είναι οι εφαρμογές Gemini. Οι Pro και Ultra απαντούν σε ερωτήματα σε μια σειρά γλωσσών.

Το Gemini Pro και το Ultra είναι επίσης προσβάσιμα σε προεπισκόπηση στο Vertex AI μέσω ενός API. Το API είναι δωρεάν για χρήση «εντός ορίων» προς το παρόν και υποστηρίζει ορισμένες περιοχές, συμπεριλαμβανομένης της Ευρώπης, καθώς και λειτουργίες όπως η λειτουργικότητα συνομιλίας και το φιλτράρισμα.

Αλλού, τα Gemini Pro και Ultra θα βρείτε στο AI Studio. Χρησιμοποιώντας την υπηρεσία, οι προγραμματιστές μπορούν να επαναλάβουν προτροπές και chatbot που βασίζονται σε Gemini και, στη συνέχεια, να λάβουν κλειδιά API για να τα χρησιμοποιήσουν στις εφαρμογές τους — ή να εξάγουν τον κώδικα σε ένα πιο πλήρως εξοπλισμένο IDE.


Duet AI για προγραμματιστές

, η σουίτα εργαλείων βοήθειας της Google με τεχνητή νοημοσύνη για τη συμπλήρωση και τη δημιουργία κώδικα, χρησιμοποιεί πλέον μοντέλα Gemini. Και η Google έφερε τα μοντέλα Gemini στα εργαλεία προγραμματισμού της για την πλατφόρμα προγραμματιστών για κινητά Chrome και Firebase.

Δίδυμοι Νάνο

Το Gemini Nano βρίσκεται στο Pixel 8 Pro — και θα έρθει και σε άλλες συσκευές στο μέλλον. Οι προγραμματιστές που ενδιαφέρονται να ενσωματώσουν το μοντέλο στις εφαρμογές τους Android μπορούν

Εγγραφείτε

για μια κλεφτή ματιά.


VIA:

techcrunch.com


Follow TechWar.gr on Google News


Leave A Reply



Cancel Reply

Your email address will not be published.