Οι διπλοί πράκτορες AI και η βελτιωμένη Google Assistant του Pixel 4
Πρόσφατα, έχει αυξηθεί η κουβέντα για πράκτορες τεχνητής νοημοσύνης που αναλαμβάνουν μια εντολή και εκτελούν φυσικά την εργασία, συμπεριλαμβανομένων των απαραίτητων πατημάτων και ολισθήσεων, στο τηλέφωνό σας. Αυτή η συζήτηση για την κατασκευή ενός πράκτορα τεχνητής νοημοσύνης μου θυμίζει πολύ τον «νέο Βοηθό Google» που ανακοινώθηκε με το
Pixel
4 το 2019.
Στο I/O 2019, η Google παρουσίασε για πρώτη φορά αυτόν τον Βοηθό επόμενης γενιάς. Η υπόθεση ήταν ότι η επεξεργασία φωνής στη συσκευή θα έκανε έτσι “το πάτημα για να χειριστείτε το τηλέφωνό σας θα φαινόταν σχεδόν αργό”.
Η Google παρουσίασε απλές εντολές που περιλαμβάνουν το άνοιγμα και τον έλεγχο εφαρμογών, ενώ η πιο περίπλοκη ιδέα ήταν “πώς ο Βοηθός ενσωματωμένος στη συσκευή θα μπορούσε να ενορχηστρώσει εργασίες σε όλες τις εφαρμογές”. Το παράδειγμα ήταν η λήψη ενός εισερχόμενου κειμένου, η απάντηση μέσω φωνής και, στη συνέχεια, η ιδέα να αναζητήσετε και να στείλετε μια συνοδευτική φωτογραφία. Η δυνατότητα “Λειτουργίας” και “Πολλαπλών εργασιών” ολοκληρώθηκε από μια φυσική δυνατότητα “Σύνθεσης” στο Gmail.
Αυτός ο Βοηθός επόμενης γενιάς θα σας επιτρέψει να χειριστείτε άμεσα το τηλέφωνό σας με τη φωνή σας, να εκτελέσετε πολλές εργασίες σε όλες τις εφαρμογές και να ολοκληρώσετε πολύπλοκες ενέργειες, όλα με σχεδόν μηδενικό λανθάνοντα χρόνο.
Το νέο Assistant κυκλοφόρησε στο Pixel 4 αργότερα εκείνο το έτος και ήταν διαθέσιμο σε όλες τις επόμενες συσκευές Google.
- «Βγάλε μια selfie». Στη συνέχεια, πείτε “Μοιραστείτε το με τον Ryan”.
- Σε ένα νήμα συνομιλίας, πείτε “Απάντηση, είμαι καθ’ οδόν”.
-
“
Αναζήτηση
για μαθήματα γιόγκα στο YouTube.” Στη συνέχεια, πείτε “Μοιραστείτε το με τη μαμά”. - “Δείξε μου email από τη Michelle στο Gmail.”
-
Με ανοιχτή την
εφαρμογή
Google Photos, πείτε “Show me New York pictures”. Στη συνέχεια, πείτε “Thees at Central Park”. - Με έναν ιστότοπο συνταγών ανοιχτό στο Chrome, πείτε “Αναζήτηση για μπράουνις σοκολάτας με ξηρούς καρπούς”.
- Με ανοιχτή μια ταξιδιωτική εφαρμογή, πείτε “Ξενοδοχεία στο Παρίσι”.
Αυτή είναι η θεμελιώδης ιδέα πίσω από τους πράκτορες AI. Κατά τη διάρκεια μιας κλήσης κερδών της Alphabet τον περασμένο μήνα, ο Sundar
Pichai
ρωτήθηκε για τον αντίκτυπο της γενετικής τεχνητής νοημοσύνης στο Assistant. Είπε ότι θα επιτρέψει στο Google Assistant να «λειτουργεί περισσότερο σαν πράκτορας με την πάροδο του χρόνου» και «να υπερβαίνει τις απαντήσεις και να ακολουθεί τους χρήστες».
Σύμφωνα με
Η πληροφορία
αυτή την εβδομάδα, το OpenAI εργάζεται σε έναν τέτοιο πράκτορα
ChatGPT
:
Αυτού του είδους τα αιτήματα θα ενεργοποιούσαν τον πράκτορα να εκτελέσει τα κλικ, τις κινήσεις του δρομέα, την πληκτρολόγηση κειμένου και άλλες ενέργειες που κάνουν οι άνθρωποι καθώς εργάζονται με διαφορετικές εφαρμογές, σύμφωνα με ένα άτομο με γνώση της προσπάθειας.
Στη συνέχεια, υπάρχει το Rabbit με το μεγάλο μοντέλο δράσης (LAM) που έχει εκπαιδευτεί να αλληλεπιδρά με υπάρχουσες διεπαφές κινητών και επιτραπέζιων υπολογιστών για να ολοκληρώσει μια καθορισμένη εργασία.
Η έκδοση που είχε το Google Assistant το 2019 αισθάνθηκε πολύ προ-προγραμματισμένη, απαιτώντας από τους χρήστες να τηρούν ορισμένες φράσεις αντί να αφήνουν τους ανθρώπους να μιλούν φυσικά και στη συνέχεια να διακρίνουν αυτόματα τη δράση. Εκείνη την εποχή, η Google είπε ότι το Assistant «λειτουργεί άψογα με πολλές εφαρμογές» και ότι «θα συνεχίσει να βελτιώνει τις ενσωματώσεις εφαρμογών με την πάροδο του χρόνου». Από όσο γνωρίζουμε, αυτό δεν συνέβη ποτέ πραγματικά, ενώ ορισμένες από τις δυνατότητες που επέδειξε η Google δεν λειτουργούν πλέον καθώς η εφαρμογή έχει αλλάξει. Ένας αληθινός πράκτορας θα μπορούσε να προσαρμοστεί αντί να βασίζεται σε καθορισμένες συνθήκες.
Είναι εύκολο να δούμε πώς οι LLMs θα μπορούσαν να βελτιωθούν σε αυτό, με την Έρευνα Google πέρυσι να επιδεικνύει δουλειά σε «
Ενεργοποίηση συνομιλίας με διεπαφή χρήστη για κινητά χρησιμοποιώντας μοντέλα μεγάλων γλωσσών
.»

Η Google Research απέδειξε ότι η προσέγγισή της είναι σε θέση να «κατανοήσει γρήγορα τον σκοπό μιας διεπαφής χρήστη για κινητά»:
Είναι ενδιαφέρον ότι παρατηρήσαμε LLM που χρησιμοποιούν τις προηγούμενες γνώσεις τους για να συναγάγουν πληροφορίες που δεν παρουσιάζονται στη διεπαφή χρήστη κατά τη δημιουργία περιλήψεων. Στο παρακάτω παράδειγμα, το LLM συμπέρανε ότι οι σταθμοί του μετρό ανήκουν στο σύστημα του μετρό του Λονδίνου, ενώ η διεπαφή χρήστη εισόδου δεν περιέχει αυτές τις πληροφορίες.
Μπορεί επίσης να απαντήσει σε ερωτήσεις σχετικά με το περιεχόμενο που εμφανίστηκε στη διεπαφή χρήστη και να το ελέγξει αφού του δοθεί μια οδηγία φυσικής γλώσσας.
Ένας πράκτορας τεχνητής νοημοσύνης Gemini για τη συσκευή σας Android θα ήταν η φυσική εξέλιξη της πρώτης προσπάθειας της Google, η οποία δεν έγινε ποτέ στην πραγματικότητα ως ένας ολοκληρωμένος Βοηθός που παρείχε έναν νέο τρόπο χρήσης του τηλεφώνου σας. Ωστόσο, λειτουργίες όπως η μεταγραφή μιας απάντησης μηνύματος και στη συνέχεια η δυνατότητα ζωντανής έκφρασης “αποστολή” στη φωνητική πληκτρολόγηση του Βοηθού του Gboard.
Φαίνεται ότι η προηγούμενη προσπάθεια ήταν μια περίπτωση που η Google ήταν πολύ νωρίς για μια ιδέα και δεν είχε την απαιτούμενη τεχνολογία. Τώρα που είναι εδώ, η Google θα ήταν φρόνιμο να δώσει προτεραιότητα σε αυτήν την προσπάθεια, ώστε να μπορέσει να αρχίσει να ηγείται του γηπέδου αντί να παίζει τη διαφορά.
VIA:
9to5google.com

