Το ChatGPT αποκτά τη δυνατότητα «Δείτε», «Ακούω» και «Μιλάτε»
Τη Δευτέρα, ChatGPT-maker
OpenAI
ανακοινώθηκε
άρχιζε να κυκλοφορεί την αναγνώριση φωνής και εικόνας στο ChatGPT. Ουσιασ
τι
κά, το AI μπορεί να αναγνωρίσει μια εικόνα για αυτό που είναι και να επικοινωνήσει με τους χρήστες σχετικά με αυτήν. Επιπλέον, το AI διαθέτει πλέον δυνατότητες σύνθεσης ομιλίας σε κείμενο και κειμένου σε ομιλία.
ΕΝΑ
όλα τα νέα χαρακτηριστικά
είναι
υποτίθεται ότι κάνει το chatbot να φαίνεται περισσότερο—αχα—
“
ανθρώπινο”
από ό,τι έκανε
σε
προηγούμενες επαναλήψεις
.
Το OpenAI μοιράστηκε ένα βίντεο προώθησης που υποτίθεται ότι θα προσφέρει στους χρήστες μια ιδέα
πώς θα είναι οι δυνατότητες αναγνώρισης εικόνας. Σε αυτό, ένας χρήστης ζητά από το ChatGPT να τον βοηθήσει να κατεβάσει το κάθισμα του ποδηλάτου του, στο οποίο το chatbot απαντά με κάποιες γενικές (και, αν ήμασταν αφιλοκερδείς, εξαιρετικά προφανείς) συμβουλές για το κατέβασμα κάθε είδους καθίσματος.
Ο χρήστης που έκανε για πρώτη φορά κάθισμα ποδηλάτου σχεδίασε στη συνέχεια έναν κύκλο γύρω από την λαβή του καθίσματος ποδηλάτου και ζήτησε πιο λεπτομερή βοήθεια, για την οποία το ChatGPT υποτίθεται ότι αναγνώρισε τον τύπο του μπουλονιού και είπε στον χρήστη ότι χρειαζόταν ένα Allen
γαλλικο ΚΛΕΙΔΙ. Το σύστημα υποτίθεται ότι μπορεί επίσης να δει μια εικόνα του εγχειριδίου χρήστη και της εργαλειοθήκης
για να δούμε αν έχουν το σωστό μέγεθος
γαλλικο ΚΛΕΙΔΙ.
Αν και η αναγνώριση εικόνας
δεν είναι
κάτι με το οποίο έχουν πειραματιστεί πολλές υπηρεσίες chatbot, είμαστε πολύ ενημερωμένοι σχετικά με τα συστήματα αναγνώρισης ομιλίας, καθώς και τη σύνθεση φωνής. Το OpenAI πείραξε τις νέες υπηρεσίες φωνής του chatbot με ένα βίντεο μιας μητέρας που ζητά από το ChatGPT να διαβάσει στα παιδιά της μια
ιστορία
πριν τον ύπνο για έναν συγκεκριμένο σκαντζόχοιρο του δάσους (Μπορούσε απλώς να διαβάσει από
πραγματικό εικονογραφημένο βιβλίο, αλλά υποθέτω ότι αυτός είναι ένας τρόπος για να γίνεις γονέας).
Τα δείγματα που περιλαμβάνονται στην ανάρτηση ιστολογίου του OpenAI έχουν έναν φυσικό ήχο, αν και δεν είναι ότι τα πακέτα φωνής “Juniper”, “Sky” ή “Breeze” δημιουργούν μοναδικές φωνές για τον μικρό Larry the Hedgehog ή για οποιονδήποτε από τους φίλους του στο δάσος. Κάθε φωνή βασίζεται σε έναν φωνητικό ηθοποιό που έδωσε άδεια στους ήχους του στο σύστημα, σύμφωνα με το OpenAI.
Είναι παρόμοιο με άλλη σύνθεση φωνής AI από
εταιρείες όπως η ElevenLabs
. Αυτή η υπηρεσία έχει συρθεί για να είναι αρχικά
χρησιμοποιείται για deepfakes και παρενόχληση
. Η OpenAI είπε ότι οι πρώτες φωνητικές υπηρεσίες της εφαρμόζονταν μόνο στη φωνητική συνομιλία ChatGPT. Η εταιρεία αδειοδοτεί επίσης τα φωνητικά της συστήματα στο
Spotify
, το οποίο τη Δευτέρα
ανακοινώθηκε
νέες δυνατότητες φωνητικής μετάφρασης podcast. Το σύστημα θα πρέπει να μπορεί να μιμείται τα δημοφιλή
podcasters’
φωνές
Ομιλία
στα ισπανικά, γαλλικά και γερμανικά για να ξεκινήσετε.
Φυσικά, η νέα δυνατότητα είναι διαθέσιμη μόνο σε χρήστες που πληρώνουν για την υπηρεσία Plus ή Enterprise και και οι δύο δυνατότητες θα πρέπει να είναι διαθέσιμες στο
iOS και Android μέσα στις επόμενες δύο εβδομάδες. Οι χρήστες στην έκδοση web του ChatGPT θα πρέπει επίσης να έχουν δυνατότητες εικόνας αρκετά σύντομα. Επίσης, το σύστημα δεν θα είναι τόσο γρήγορο ή τόσο ικανό όσο προτείνει κανένα από αυτά τα βίντεο προώθησης.
Ενσύρματο
αναφέρθηκε με βάση μια έκδοση πριν από την κυκλοφορία που έλαβε η αναγνώριση φωνής
αρκετά δευτερόλεπτα για να ανταποκριθεί και ότι το σύστημα εικόνων δεν θα προσπαθήσει να αναγνωρίσει άτομα στις φωτογραφίες (θα πρέπει να περιμένουμε να δούμε πόσο καλά το σύστημα προσπαθεί να προστατεύσει το απόρρητο των ανθρώπων στις φωτογραφίες).
Σε ένα email στο Gizmodo, εκπρόσωπος του OpenAI είπε ότι προσπαθούσαν να αναπτύξουν νέες δυνατότητες «σταδιακά για να επιτρέψουν βελτιώσεις και τελειοποίηση των μετριασμού του κινδύνου με την πάροδο του χρόνου», κάτι που είναι ακόμη πιο «κρίσιμο» με την αναγνώριση φωνής και εικόνας.
Το άλλο πρόβλημα με τα μοντέλα που βασίζονται στο όραμα είναι ότι το chatbot έχει μια εντελώς νέα αρένα όπου μπορεί να παρερμηνεύσει ή να αποτύχει να μετρήσει με ακρίβεια τα μηνύματα των χρηστών. Η OpenAI διεκδίκησε την εταιρεία red-team
επεξεργάστηκε αυτή τη νέα δυνατότητα για να προσπαθήσει να μειώσει τους κινδύνους, αλλά θα είναι μόνο θέμα χρόνου οι χρήστες να ξεπεράσουν ξανά τα ηθικά όρια του chatbot.
Το ChatGPT έχει
παρακολούθησα
του
μείωση του συνόλου των χρηστών
από τότε που γνώρισε για πρώτη φορά τεράστια δημοτικότητα τον Νοέμβριο
2022. Μέρος του ζητήματος είναι ότι ορισμένοι χρήστες αισθάνονται ότι η εταιρεία έχει
εμπόδισε τις δυνατότητες του chatbot
καθώς το OpenAI δυσκολεύεται να βρει κάποιο είδος
ηθική ισορροπία
μεταξύ του μετριασμού των βλαβών και του να αφήνουν τους χρήστες του chatbot να τρέχουν τρελά.
Το OpenAI αντιμετωπίζει επίσης
μεγάλο
ανταγωνισμό για το chatbot του από σημαντικούς τεχνολογικούς παίκτες όπως
Μετα
καθώς και startups όπως
Ανθρωπικό
. Η Google είναι
σύμφωνα με πληροφορίες
έτοιμη να κυκλοφορήσει τον δικό της ανταγωνιστή GPT-4 που ονομάζεται «Gemini», ο οποίος
θα μπορούσε επίσης να περιλαμβάνει δυνατότητες αναγνώρισης εικόνας και φωνής. Την προηγούμενη εβδομάδα,
OpenAI
αποκάλυψε τη γεννήτρια εικόνων DALL-E 3 AI
οι οποίες
περιλαμβάνει επίσης ενσωμάτωση ChatGPT. Πραγματικά, είναι απλώς μια άλλη εταιρεία που πίνει τη «φυσική γλώσσα» Kool-Aid
πιστεύοντας ότι η ικανότητα λειτουργίας ενός συστήματος με χρήση φυσικής γλώσσας αντικαθιστά κατά κάποιο τρόπο ένα σύστημα που λειτουργεί καλύτερα
διεπαφή χρήστη.
