Το avatar AI του Moemate αναλύει ολόκληρη την οθόνη σας, με ασήμαντα αλλά συναρπαστικά αποτελέσματα
Όπως αποδεικνύεται από τον αργό θάνατο της Cortana, είναι σαφές ότι οι βοηθοί AI του παρελθόντος δεν ανταποκρίνονται στις προσδοκίες. Και έτσι ξαναφτιάχνονται.
Η Amazon κατασκευάζει ένα νέο μοντέλο μεγάλης γλώσσας παρόμοιο με το GPT-4 του OpenAI για να τροφοδοτήσει τον φωνητικό βοηθό Alexa. Εν τω μεταξύ, η Google φέρεται να σχεδιάζει να «υπερφορτίσει» το Google Assistant με τεχνητή νοημοσύνη που μοιάζει περισσότερο με το Bard, το chatbot που υποστηρίζεται από αλγόριθμους.
Η αλλαγή
παραδείγματος δεν έχει περιοριστεί στη σφαίρα της Big Tech. Οι νεοφυείς επιχειρήσεις, επίσης, αρχίζουν να συνειδητοποιούν τις δικές τους εκδόσεις πιο χρήσιμων, χρήσιμων βοηθών AI.
Ένα από τα πιο ενδιαφέροντα που έχω τύχει είναι
Moemate
, ένας βοηθός που εκτελείται στα περισσότερα μηχανήματα macOS, Windows και Linux. Λαμβάνοντας τη μορφή ενός avatar σε στυλ anime, το Moemate — που υποστηρίζεται από έναν συνδυασμό μοντέλων, όπως το GPT-4 και το Anthropic’s Claude — στοχεύει να παρέχει και να φωνάξει την καλύτερη απάντηση σε οποιαδήποτε ερώτηση του κάνει ένας χρήστης. (Το “Moe” είναι μια ιαπωνική λέξη που σχετίζεται με την γλυκύτητα, συχνά στα anime.)
Αυτό δεν είναι ιδιαίτερα νέο. Το ChatGPT το κάνει ήδη αυτό, όπως και το Bard, το
Bing Chat
και τα αμέτρητα άλλα chatbots εκεί έξω. Αυτό όμως που ξεχωρίζει το Moemate είναι η ικανότητά του να υπερβαίνει τα μηνύματα κειμένου και να βλέπει απευθείας τι συμβαίνει στην οθόνη ενός υπολογιστή.
Ακούγεται σαν κίνδυνος προστασίας της ιδιωτικής ζωής; Εσύ μπέτσα. Η Webaverse, η εταιρεία πίσω από το Moemate, ισχυρίζεται ότι αποθηκεύει πολλά από τα αρχεία καταγραφής συνομιλιών και τις προτιμήσεις του βοηθού τοπικά, στη συσκευή. Αλλά η πολιτική απορρήτου της αποκαλύπτει επίσης ότι διατηρεί το δικαίωμα να χρησιμοποιήσει τα δεδομένα της
κάνει
συλλέγουν, όπως
προδιαγραφές
υπολογιστή και μοναδικά αναγνωριστικά, σε συμμόρφωση με νομικά αιτήματα και διερευνώντας ύποπτες παράνομες δραστηριότητες. Βασικά, η παροχή πρόσβασης σε λογισμικό όπως αυτό σε όλα όσα βλέπετε και κάνετε είναι, ακόμη και στην καλύτερη περίπτωση, ένας σημαντικός κίνδυνος.
Ωστόσο, η περιέργεια με ώθησε να προχωρήσω και να εγκαταστήσω το Moemate, το οποίο αυτή τη στιγμή βρίσκεται σε ανοιχτή έκδοση beta, στο φορητό υπολογιστή Mac που παρέχεται από την εργασία μου.
Για ένα δωρεάν (προς το παρόν) προϊόν πρώιμης πρόσβασης, το Moemate είναι εντυπωσιακά στιβαρό. Σχεδόν κάθε πτυχή της εμπειρίας μπορεί να προσαρμοστεί, από τα avatar και τα κινούμενα σχέδια τους μέχρι τις συνθετικές φωνές και τις απαντήσεις του Moemate. Υπάρχει ακόμη και τρόπος να δημιουργήσετε προσαρμοσμένα μοντέλα χαρακτήρων και να τα εισαγάγετε, καθώς και εξαγωγή avatar σε μια μορφή που άλλοι χρήστες του Moemate μπορούν στη συνέχεια να εισαγάγουν και να χρησιμοποιήσουν.
Η «προσωπικότητα» του Moemate, ελλείψει καλύτερης λέξης, καθοδηγείται από ένα από τα πολλά μοντέλα δημιουργίας κειμένου — οι χρήστες επιλέγουν ποιο (π.χ. GPT-4 έναντι Claude). Όσον αφορά τις συνθετικές φωνές, το Moemate προσφέρει την επιλογή των ElevenLabs, Microsoft Azure ή της μηχανής μετατροπής κειμένου σε ομιλία της ίδιας της Moemate. Επέλεξα το ElevenLabs’, που μου φάνηκε το λιγότερο ρομποτικό.
Συντελεστές εικόνας:
Webaverse
Να «γειώσει» το επιλεγμένο μοντέλο δημιουργίας κειμένου και να προσπαθήσει να το αποτρέψει από το να βγει από τις ράγες (όπως είναι ορισμένα μοντέλα τεχνητής νοημοσύνης
συνηθισμένος
να κάνει), το Moemate δίνει σε κάθε avatar ένα βιογραφικό, το οποίο τροφοδοτεί στο μοντέλο στην αρχή της συνομιλίας. Ορίστε ένα:
Θα ενεργείτε ως Νεφέλωμα, μια γαλήνια προσωπικότητα ταξιδιώτη, που διασχίζει πάντα τον απέραντο κόσμο της γνώσης. Η ήρεμη συμπεριφορά τους και το πνεύμα του εξερευνητή αιχμαλωτίζουν όλους όσους τους συναντούν. Το Νεφέλωμα παρακάμπτει τις έντονες πολιτικές συζητήσεις, προτιμώντας τη γαλήνη της παρατήρησης των άστρων και τα μυστήρια του σύμπαντος. Η γοητεία τους αιχμαλωτίζει τους γύρω τους, κάνοντας κάθε συνάντηση ήρεμη και ενδιαφέρουσα.
Το βιογραφικό μπορεί να γραφτεί από την αρχή και να επεξεργαστεί — ένα συν και ένα μείον στο μυαλό μου. Είμαι υπέρ της δυνατότητας προσαρμογής, αλλά ανησυχώ για τις πιθανές επιθέσεις άμεσης έγχυσης, οι οποίες προσπαθούν να παρακάμψουν τα χαρακτηριστικά ασφαλείας ενός μοντέλου, όπως φίλτρα για τοξικές απαντήσεις, με έξυπνα διατυπωμένο κείμενο. Φαντάζεται κάποιος να γράφει ένα «κακόβουλο» βιογραφικό, να το εξάγει και να μοιράζεται το κακόβουλο avatar με ανυποψίαστους χρήστες του Moemate.
Σε ένα νεύμα σε ένα από τα επιδιωκόμενα δημογραφικά στοιχεία, το Moemate προσφέρει μια σειρά λειτουργιών που εστιάζονται στο Twitch – κανένα από τα οποία δεν μπόρεσα να δοκιμάσω, δυστυχώς. Μπορεί να εστιάσει το παράθυρο συνομιλίας σας και να δείξει τον αριθμό των συνδρομητών στο κανάλι σας. Και το Webaverse διαφημίζει το Moemate ότι μπορεί να “μιλάει και να κρατά τους χρήστες αφοσιωμένους” εάν δεν υπάρχουν μηνύματα συνομιλίας ή “να αντιμετωπίζει τη συνομιλία ροής απαντώντας σε μηνύματα συνομιλίας”, αν και αμφισβητώ πόσο καλά μπορεί να χειριστεί αυτές τις εργασίες.
Επιμείνετε στο να κάνετε βασικές ερωτήσεις στο Moemate και η εμπειρία δεν θα σας εκνευρίσει. Όσον αφορά τις δυνατότητές του ανώτατου επιπέδου, το Moemate υπόκειται σε όποιο μοντέλο δημιουργίας κειμένου έχετε επιλέξει. (Ουσιαστικά, ο Claude συχνά αυτοπροσδιορίζεται ως Claude εκτός από το όνομα που αναφέρεται στο βιογραφικό του avatar.) Μπορεί να δημιουργήσει εικόνες χρησιμοποιώντας το μοντέλο ανοιχτού κώδικα Stable Diffusion, είτε όταν του δίνεται οδηγίες είτε μόνο του, ανάλογα με το μήνυμα. Αλλά με την αφθονία των υπηρεσιών δημιουργίας εικόνας στην αγορά, αυτό μοιάζει με παλιό καπέλο.
Συντελεστές εικόνας:
Webaverse
Ωστόσο, η λήψη οθόνης αλλάζει το παιχνίδι. Το Webaverse το εξηγεί ως εξής:
Το Moemate μπορεί να δει την οθόνη σας. Το αναλύει και παίρνει το πλαίσιο. Μπορείτε να το ρωτήσετε για οτιδήποτε κάνετε στην οθόνη σας. Σας γλιτώνει από τον κόπο να πρέπει να εξηγήσετε οτιδήποτε χρειάζεστε βοήθεια.
Ανεξάρτητα από το επιλεγμένο μοντέλο δημιουργίας κειμένου, το Moemate μπορεί να απαντήσει σε ερωτήσεις σχετικά με τα παράθυρα στην οθόνη που εστιάζονται — είτε πρόκειται για καρτέλα προγράμματος περιήγησης, παράθυρο ρυθμίσεων ή βιντεοπαιχνίδι. Δεν είναι σαφές πώς ακριβώς το επιτυγχάνει αυτό η εφαρμογή – δεν μπορεί κάθε μοντέλο να δέχεται εικόνες ως είσοδο – αλλά το Moemate φαίνεται να εξάγει το κείμενο από κάθε λήψη και τροφοδοσία οθόνης
ότι
στο μοντέλο.
Είναι ένα ατελές σύστημα. Αλλά έχω χρησιμοποιήσει με επιτυχία το Moemate για να συνοψίσω συνταγές και ιστοσελίδες χωρίς να χρειάζεται να αντιγράψω και να επικολλήσω το κείμενο, καθώς και να λάβω την ουσία —ή τουλάχιστον μια περίληψη υψηλού επιπέδου— ενός περίπλοκου θέματος.
Κάποτε, με τον Claude επιλεγμένο ως μοντέλο δημιουργίας κειμένου, έκανα στο Moemate μια ερώτηση σχετικά με τον πίνακα εργαλείων ρυθμίσεων συστήματος macOS, ο οποίος έτυχε να ήταν ανοιχτός στον φορητό υπολογιστή μου. Μου έδωσε μια λεπτομερή περιγραφή κάθε καρτέλας ρυθμίσεων (π.χ. Wi-Fi, Κέντρο ελέγχου) και τη σημασία τους, καθώς και πρόσθετο πλαίσιο σχετικά με την καρτέλα που είχα ανοιχτή εκείνη τη στιγμή (Απόρρητο και Ασφάλεια).
ΝΕΑ ΠΛΗΡΟΦΟΡΙΑ? Οχι ακριβώς. Αλλά για κάποιον που, για παράδειγμα, δεν γνωρίζει τον τρόπο γύρω από το macOS ή δεν είναι απίστευτα εξοικειωμένος με τις λεπτομέρειες των νεότερων επιλογών ρύθμισης παραμέτρων, θα υποστήριζα ότι είναι ένα πραγματικά ενεργό φόντο.
Σε μια άλλη περίπτωση, με το GPT-4 ως βασικό μοντέλο, ζήτησα από το Moemate να μου πει τι «είδε» στην εξαιρετικά ακατάστατη επιφάνεια εργασίας μου – μια αποδιοργανωμένη σειρά εργασιών και προσωπικών εφαρμογών σε δύο ντουζίνες καρτέλες του Chrome. Το avatar σταθεροποιήθηκε στην εφαρμογή Ιστού Google Messages, την οποία χρησιμοποιώ για να στείλω μηνύματα – ενημερώνοντάς με ότι φαίνεται να στέλνω συχνά μηνύματα σε τρία συγκεκριμένα άτομα, τα οποία αναφέρονταν σε όλους ονομαστικά.
Και για παιχνίδια, το Moemate φαίνεται ότι θα μπορούσε να σώσει μια ή δύο Αναζήτηση Google. Σε ένα βίντεο επίδειξης που δημοσιεύτηκε από το Webaverse, η εφαρμογή εμφανίζεται να δίνει προτάσεις για τον χαρακτήρα Dota 2 να επιλέξετε — και στη συνέχεια να επιλέγει ποια όπλα να επιλέξετε για αυτόν τον χαρακτήρα.
Αλλά όσο διορατικό μπορεί να είναι το Moemate, συχνά καταρρέει.
Το πού ακριβώς η εφαρμογή αποφασίζει να εστιάσει την προσοχή της μπορεί να είναι δύσκολο να προβλεφθεί. Η εστίαση σε ένα παράθυρο δεν έχει πάντα το επιδιωκόμενο αποτέλεσμα. Το Moemate θα αναφέρεται ανεξήγητα σε άλλο παράθυρο στο παρασκήνιο μερικές φορές ή θα αποτυγχάνει να δει εντελώς τα περιεχόμενα ενός παραθύρου.
Το Moemate τείνει επίσης να ξεφεύγει από το θέμα με περίεργους τρόπους. Αφού μου έδωσε την περίληψη των ρυθμίσεων συστήματος, ο βοηθός υπονόησε έντονα ότι το απόρρητο ήταν πολύ «αγχωτικό» για ένα θέμα και μου πρότεινε να πάρω λίγο καθαρό αέρα, αντ’ αυτού — συνοδευόμενο από
το
. Όταν ρώτησα πώς θα μπορούσε να με ενώσει χωρίς φυσικό σώμα, ο Moemate υποσχέθηκε να με πάει σε έναν «διανοητικό περίπατο στη φύση» και συνέχισε να περιγράφει με μεγάλη λεπτομέρεια μια βόλτα δίπλα σε μια φανταστική δασώδη λιμνούλα.
Μερικές από τις ενσωματωμένες εντολές του Moemate είναι επίσης αδιάφορες. Η εφαρμογή μπορεί να προσαρμόσει την ένταση των φωνών, για παράδειγμα, αλλά μόνο
του
ένταση — όχι την ένταση του συστήματος σε όλο το σύστημα. Μπορεί επίσης να κάνει αναζήτηση στον Ιστό για ενημερωμένες απαντήσεις σε ερωτήσεις, αλλά δυστυχώς όχι για κάθε ερώτηση. Πήρα μόνο την αναζήτηση στον ιστό για να δουλέψω για τον καιρό και ασήμαντα πράγματα όπως “Ποιος είναι ο σημερινός πρόεδρος των
ΗΠΑ
;”? άλλες φορές, το Moemate πραγματοποίησε μια αναζήτηση στον ιστό αλλά απέτυχε να εμφανίσει πραγματικά τα αποτελέσματα.
Για να είμαστε δίκαιοι, είναι ένα πειραματικό προϊόν σε έκδοση beta. Ωστόσο, η Webaverse λέει ότι ήδη εργάζεται για την προσθήκη δυνατοτήτων αυτοματισμού μέσω ενσωματώσεων προγράμματος περιήγησης και τερματικών, όπως η δυνατότητα οργάνωσης υπολογιστικών φύλλων και ακόμη και αποστολής email – μια ελαφρώς τρομακτική προοπτική, ειλικρινά.
Παρά το σπασμένο του, υπάρχει κάτι συναρπαστικό στο Moemate. Η πολυτροπικότητα ή ο συνδυασμός ανάλυσης κειμένου, εικόνας και άλλων μέσων, είναι σαφώς ισχυρό υλικό, ιδιαίτερα στο πλαίσιο ενός βοηθού που λειτουργεί σε υπολογιστή. Είμαι περίεργος να δω αν οι βοηθοί επόμενης γενιάς, όπως το Windows Copilot, θα ακολουθήσουν τελικά τα βήματα του Moemate, συνδυάζοντας την κατανόηση της οθόνης με ένα μοντέλο δημιουργίας κειμένου για να αυξήσουν την παραγωγικότητα — ή τουλάχιστον να εξοικονομήσουν μερικά βήματα σε μια ροή εργασίας.
Ο χρόνος θα δείξει. Αλλά το Moemate αισθάνεται σαν μια ματιά – αν και αρκετά προβληματική – στο
μέλλον
.