Το ChatGPT προσφέρει δυνατότητες φωνής και εικόνας

By

Marizas Dimitris

On

Σεπ 25, 2023

Last updated

Σεπ 25, 2023

Το αγαπημένο chatbot όλων μπορεί τώρα

δείτε και ακούστε και μιλήστε

. Τη Δευτέρα, το OpenAI ανακοίνωσε νέες πολυτροπικές δυνατότητες για το ChatGPT. Οι χρήστες μπορούν πλέον να έχουν φωνητικές συνομιλίες ή να μοιράζονται εικόνες με το ChatGPT σε πραγματικό χρόνο.

Τα ηχητικά και πολυτροπικά χαρακτηριστικά έχουν γίνει η επόμενη φάση στον έντονο ανταγωνισμό τεχνητής νοημοσύνης. Η Meta κυκλοφόρησε πρόσφατα το AudioCraft για τη δημιουργία μουσικής με AI και το

Google

Bard και το Microsoft

Bing

έχουν αναπτύξει και οι δύο πολυτροπικές λειτουργίες για τις εμπειρίες συνομιλίας τους. Μόλις την περασμένη εβδομάδα, η Amazon έκανε προεπισκόπηση μιας ανανεωμένης έκδοσης της Alexa που θα τροφοδοτείται από το δικό της LLM (μεγάλο μοντέλο γλώσσας) και ακόμη και η Apple πειραματίζεται με φωνή που δημιουργείται από AI, με Personal Voice.

ΔΕΙΤΕ ΕΠΙΣΗΣ:

Το OpenAI επεκτείνει τις «προσαρμοσμένες οδηγίες» του ChatGPT σε δωρεάν χρήστες

Οι δυνατότητες φωνής θα είναι διαθέσιμες σε iOS και Android. Όπως το Alexa ή το Siri, μπορείτε να πατήσετε για να μιλήσετε στο ChatGPT και θα σας μιλήσει σε μία από τις πέντε προτιμώμενες επιλογές φωνής. Σε αντίθεση με τους τρέχοντες φωνητικούς βοηθούς εκεί έξω, το ChatGPT τροφοδοτείται από πιο προηγμένα LLM, επομένως αυτό που θα ακούσετε είναι ο ίδιος τύπος συνομιλίας και δημιουργικής απόκρισης που μπορούν να δημιουργήσουν τα GPT-4 και

GPT-3

.5 του OpenAI με κείμενο. Το παράδειγμα που κοινοποίησε το OpenAI στην ανακοίνωση δημιουργεί μια ιστορία πριν τον ύπνο από μια φωνητική προτροπή. Έτσι, οι εξαντλημένοι γονείς στο τέλος μιας κουραστικής μέρας μπορούν να αναθέσουν τη δημιουργικότητά τους σε τρίτους στο ChatGPT.

Το

tweet

μπορεί να έχει διαγραφεί

Η πολυτροπική αναγνώριση είναι κάτι που είχε προβλεφθεί εδώ και καιρό και τώρα κυκλοφορεί με τρόπο φιλικό προς τον χρήστη για το ChatGPT. Όταν το GPT-4 κυκλοφόρησε τον περασμένο Μάρτιο, το OpenAI παρουσίασε την ικανότητά του να κατανοεί και να ερμηνεύει εικόνες και χειρόγραφο κείμενο. Τώρα θα είναι μέρος της καθημερινής χρήσης ChatGPT. Οι χρήστες μπορούν να ανεβάσουν μια εικόνα κάποιου πράγματος και να ρωτήσουν σχετικά το ChatGPT — να αναγνωρίσουν ένα σύννεφο ή να φτιάξουν ένα πρόγραμμα γευμάτων με βάση μια φωτογραφία του περιεχομένου του ψυγείου σας. Το Multimodal θα είναι διαθέσιμο σε όλες τις πλατφόρμες.

Όπως συμβαίνει με κάθε γενετική πρόοδο της τεχνητής νοημοσύνης, υπάρχουν σοβαρά ζητήματα δεοντολογίας και απορρήτου που πρέπει να ληφθούν υπόψη. Για τον μετριασμό των κινδύνων από ψεύτικα αρχεία ήχου, η OpenAI λέει ότι χρησιμοποιεί την τεχνολογία αναγνώρισης ήχου της μόνο για τη συγκεκριμένη περίπτωση χρήσης «φωνητικής συνομιλίας». Επίσης, δημιουργήθηκε με φωνητικούς ηθοποιούς με τους οποίους έχουν «συνεργαστεί άμεσα». Τούτου λεχθέντος, η ανακοίνωση δεν αναφέρει εάν οι φωνές των χρηστών μπορούν να χρησιμοποιηθούν για την εκπαίδευση του μοντέλου, όταν επιλέγετε τη φωνητική συνομιλία. Για τις πολυτροπικές δυνατότητες του ChatGPT, το OpenAI λέει ότι «έχει λάβει τεχνικά μέτρα για να περιορίσει σημαντικά την ικανότητα του ChatGPT να αναλύει και να κάνει άμεσες δηλώσεις για τους ανθρώπους, καθώς το ChatGPT δεν είναι πάντα ακριβές και αυτά τα συστήματα θα πρέπει να σέβονται το απόρρητο των ατόμων». Αλλά το πραγματικό τεστ των κακόβουλων χρήσεων δεν θα γίνει γνωστό μέχρι να απελευθερωθεί στη φύση.

Η φωνητική συνομιλία και οι εικόνες θα κυκλοφορήσουν στους χρήστες ChatGPT Plus και Enterprise τις επόμενες δύο εβδομάδες και σε όλους τους χρήστες “λίγο μετά”.

Θέματα

ChatGPT τεχνητής νοημοσύνης

mashable.com

Παρόμοια άρθρα