Αυτή η γερμανική μη κερδοσκοπική οργάνωση δημιουργεί έναν ανοιχτό φωνητικό βοηθό που μπορεί να χρησιμοποιήσει ο καθένας

By

Marizas Dimitris

On

Φεβ 15, 2024

Έχουν γίνει πολλές προσπάθειες για φωνητικούς βοηθούς ανοιχτού κώδικα που λειτουργούν με τεχνητή νοημοσύνη (βλ. Rhasspy, Mycroft και Jasper, για να αναφέρουμε μερικούς) — όλες καθιερώθηκαν με στόχο τη δημιουργία εμπειριών εκτός σύνδεσης που διατηρούν το απόρρητο και δεν θέτουν σε κίνδυνο τη λειτουργικότητα. Αλλά η ανάπτυξη έχει αποδειχθεί εξαιρετικά αργή. Αυτό συμβαίνει επειδή, εκτός από όλες τις συνήθεις προκλήσεις που συνοδεύουν έργα ανοιχτού κώδικα, ο προγραμματισμός ενός βοηθού είναι

σκληρά.

Τεχνικές όπως το Google Assistant, το Siri και η Alexa έχουν χρόνια, αν όχι δεκαετίες, Ε&Α πίσω τους — και τεράστια υποδομή για εκκίνηση.

Αλλά αυτό δεν πτοεί τους ανθρώπους του Large-scale Artificial Intelligence Open Network (LAION), του γερμανικού μη κερδοσκοπικού οργανισμού που είναι υπεύθυνος για τη διατήρηση ορισμένων από τα πιο δημοφιλή σύνολα δεδομένων εκπαίδευσης τεχνητής νοημοσύνης στον κόσμο. Αυτο το μηνα,

ΛΑΪΟΝ

ανακοίνωσε μια νέα πρωτοβουλία, το BUD-E, που επιδιώκει να δημιουργήσει έναν «πλήρως ανοιχτό» φωνητικό βοηθό ικανό να λειτουργεί σε καταναλωτικό υλικό.

Γιατί να ξεκινήσετε ένα εντελώς νέο έργο φωνητικού βοηθού όταν υπάρχουν αμέτρητοι εκεί έξω σε διάφορες καταστάσεις εγκατάλειψης; Ο Wieland Brendel, συνεργάτης στο Ινστιτούτο Ellis και συνεργάτης στο BUD-E, πιστεύει ότι δεν υπάρχει ανοιχτός βοηθός με αρχιτεκτονική αρκετά επεκτάσιμη ώστε να εκμεταλλευτεί πλήρως τις αναδυόμενες τεχνολογίες GenAI, ιδιαίτερα τα μεγάλα γλωσσικά μοντέλα (LLM) σύμφωνα με ChatGPT του OpenAI.

«Οι περισσότερες αλληλεπιδράσεις με [assistants] βασίζονται σε διεπαφές συνομιλίας με τις οποίες είναι μάλλον δυσκίνητη η αλληλεπίδραση, [and] οι διάλογοι με αυτά τα συστήματα αισθάνονται παραμορφωμένοι και αφύσικοι», είπε ο Brendel στο TechCrunch σε μια συνέντευξη μέσω email. «Αυτά τα συστήματα είναι εντάξει για να μεταφέρουν εντολές για να ελέγχετε τη μουσική σας ή να ανάβετε το φως, αλλά δεν αποτελούν βάση για μακροχρόνιες και συναρπαστικές συνομιλίες. Ο στόχος του BUD-E είναι να παρέχει τη βάση για έναν φωνητικό βοηθό που αισθάνεται πολύ πιο φυσικός στους ανθρώπους και που μιμείται τα φυσικά μοτίβα ομιλίας των ανθρώπινων διαλόγων και θυμάται τις προηγούμενες συνομιλίες».

Ο Brendel πρόσθεσε ότι η LAION θέλει επίσης να διασφαλίσει ότι κάθε στοιχείο του BUD-E μπορεί τελικά να ενσωματωθεί με εφαρμογές και υπηρεσίες χωρίς άδεια χρήσης, ακόμη και εμπορικά — κάτι που δεν ισχύει απαραίτητα για άλλες προσπάθειες ανοιχτού βοηθού.

Μια συνεργασία με το Ellis Institute στο Tübingen, την εταιρεία συμβούλων τεχνολογίας Collabora και το Tübingen AI Center, BUD-E — αναδρομική συντομογραφία για το «Buddy for Understanding and Digital Empathy» — έχει έναν φιλόδοξο οδικό χάρτη. Σε ένα

ανάρτηση

η ομάδα LAION παρουσιάζει τι ελπίζει να πετύχει τους επόμενους μήνες, ενσωματώνοντας κυρίως τη «συναισθηματική νοημοσύνη» στο BUD-E και διασφαλίζοντας ότι μπορεί να χειριστεί συνομιλίες που περιλαμβάνουν πολλούς ομιλητές ταυτόχρονα.

«Υπάρχει μεγάλη ανάγκη για έναν άψογο φυσικό βοηθό φωνής», είπε ο Brendel. “

Η LAION έχει δείξει στο παρελθόν ότι είναι εξαιρετική στη δημιουργία κοινοτήτων και το Ινστιτούτο ELLIS Tübingen και το Tübingen AI Center έχουν δεσμευτεί να παρέχουν τους πόρους για την ανάπτυξη του βοηθού.»

Το BUD-E είναι σε λειτουργία — μπορείτε

Κατεβάστε

και εγκαταστήστε το σήμερα από το GitHub σε υπολογιστή Ubuntu ή Windows (το macOS έρχεται) — αλλά είναι πολύ ξεκάθαρο στα αρχικά στάδια.

Η LAION ενημέρωσε αρκετά ανοιχτά μοντέλα για να συναρμολογήσει ένα MVP, όπως το Phi-2 LLM της Microsoft, το StyleTTS2 της Columbia για μετατροπή κειμένου σε ομιλία και το FastConformer της Nvidia για ομιλία σε κείμενο. Ως εκ τούτου, η εμπειρία είναι λίγο μη βελτιστοποιημένη. Για να ανταποκριθεί το BUD-E σε εντολές μέσα σε περίπου 500 χιλιοστά του δευτερολέπτου — στο εύρος των εμπορικών φωνητικών βοηθών, όπως το Google Assistant και η Alexa — απαιτείται μια ισχυρή GPU όπως η Nvidia

RTX 4090.

Η Collabora εργάζεται pro bono για να προσαρμόσει τα μοντέλα αναγνώρισης ομιλίας ανοιχτού κώδικα και μετατροπής κειμένου σε ομιλία, WhisperLive και WhisperSpeech, για το BUD-E.

«Η δημιουργία των λύσεων αναγνώρισης κειμένου σε ομιλία και ομιλίας μόνοι μας σημαίνει ότι μπορούμε να τις προσαρμόσουμε σε βαθμό που δεν είναι δυνατό με κλειστά μοντέλα που εκτίθενται μέσω API», Jakub Piotr Cłapa, ερευνητής AI στην Collabora και μέλος της ομάδας BUD-E. είπε σε ένα email. «Η Collabora ξεκίνησε αρχικά να δουλεύει [open assistants] εν μέρει επειδή δυσκολευτήκαμε να βρούμε μια καλή λύση μετατροπής κειμένου σε ομιλία για έναν φωνητικό πράκτορα βασισμένο στο LLM για έναν από τους πελάτες μας. Αποφασίσαμε να ενώσουμε τις δυνάμεις μας με την ευρύτερη κοινότητα ανοιχτού κώδικα για να κάνουμε τα μοντέλα μας πιο ευρέως προσβάσιμα και χρήσιμα.”

Στο εγγύς μέλλον,

Η LAION λέει ότι θα λειτουργήσει για να κάνει τις απαιτήσεις υλικού του BUD-E λιγότερο επαχθείς και να μειώσει τον λανθάνοντα χρόνο του βοηθού. Μια επιχείρηση μεγαλύτερου ορίζοντα δημιουργεί ένα σύνολο δεδομένων διαλόγων για να τελειοποιήσει το BUD-E — καθώς και έναν μηχανισμό μνήμης που επιτρέπει στο BUD-E να αποθηκεύει πληροφορίες από προηγούμενες συνομιλίες και έναν αγωγό επεξεργασίας ομιλίας που μπορεί να παρακολουθεί πολλά άτομα που μιλούν με τη μία.

Ρώτησα την ομάδα αν

προσιτότητα

ήταν προτεραιότητα, δεδομένου ότι τα συστήματα αναγνώρισης ομιλίας ιστορικά δεν είχαν καλή απόδοση με γλώσσες που δεν είναι αγγλικά και προφορές που δεν είναι υπερατλαντικές. Ένα Στάνφορντ

μελέτη

διαπίστωσε ότι τα συστήματα αναγνώρισης ομιλίας από την Amazon, την IBM, τη Google, τη Microsoft και την Apple είχαν σχεδόν διπλάσιες πιθανότητες να ακούσουν κακώς τα μαύρα ηχεία έναντι των λευκών ηχείων της ίδιας ηλικίας και φύλου.

Το είπε ο Μπρέντελ

Η LAION δεν αγνοεί την προσβασιμότητα

— αλλά ότι δεν είναι «άμεση εστίαση».

BUD-E.

“Η πρώτη εστίαση είναι στον πραγματικά επαναπροσδιορισμό της εμπειρίας του τρόπου με τον οποίο αλληλεπιδρούμε με τους βοηθούς φωνής πριν γενικεύσουμε αυτήν την εμπειρία σε πιο διαφορετικές προφορές και γλώσσες”, είπε ο Brendel.

Για το σκοπό αυτό,

Το LAION έχει μερικές όμορφες ιδέες για το BUD-E, που κυμαίνονται από ένα κινούμενο avatar για την προσωποποίηση του βοηθού έως υποστήριξη για την ανάλυση των προσώπων των χρηστών μέσω webcam για να ληφθεί υπόψη η συναισθηματική τους κατάσταση.

Η ηθική αυτού του τελευταίου κομματιού – της ανάλυσης του προσώπου – είναι κάπως επικίνδυνα περιττό να πούμε τουλάχιστον. Ωστόσο, ο Robert Kaczmarczyk, συνιδρυτής της LAION, τόνισε ότι η LAION θα παραμείνει προσηλωμένη στην ασφάλεια.

“[We] να τηρούν αυστηρά τις οδηγίες ασφάλειας και δεοντολογίας που διατυπώνονται από τον νόμο της ΕΕ για την τεχνητή νοημοσύνη», είπε στο TechCrunch μέσω email — αναφερόμενος στο νομικό πλαίσιο που διέπει την πώληση και τη χρήση της τεχνητής νοημοσύνης στην ΕΕ. Ο νόμος της ΕΕ για την τεχνητή νοημοσύνη επιτρέπει στα κράτη μέλη της Ευρωπαϊκής Ένωσης να υιοθετήσουν πιο περιοριστικούς κανόνες και διασφαλίσεις για την τεχνητή νοημοσύνη «υψηλού κινδύνου», συμπεριλαμβανομένων των ταξινομητών συναισθημάτων.

“

Αυτή η δέσμευση για διαφάνεια όχι μόνο διευκολύνει τον έγκαιρο εντοπισμό και τη διόρθωση πιθανών προκαταλήψεων, αλλά βοηθά επίσης στην αιτία της επιστημονικής ακεραιότητας», πρόσθεσε ο Kaczmarczyk. «Κάνοντας τα σύνολα δεδομένων μας προσβάσιμα, δίνουμε τη δυνατότητα στην ευρύτερη επιστημονική κοινότητα να συμμετάσχει σε έρευνα που υποστηρίζει τα υψηλότερα πρότυπα αναπαραγωγιμότητας».

Το προηγούμενο έργο του LAION

δεν ήταν παρθένα

με την ηθική έννοια, και επιδιώκει ένα κάπως αμφιλεγόμενο ξεχωριστό έργο αυτή τη στιγμή για την ανίχνευση συναισθημάτων. Αλλά ίσως το BUD-E θα είναι διαφορετικό. θα πρέπει να περιμένουμε και να δούμε.

VIA:

techcrunch.com

AI

apps

Generative AI

hardware

laion

Omilia

speech

voice assistant

Βοηθός φωνής

Γενάι

Αυτή η γερμανική μη κερδοσκοπική οργάνωση δημιουργεί έναν ανοιχτό φωνητικό βοηθό που μπορεί να χρησιμοποιήσει ο καθένας

Απάντηση Ακύρωση απάντησης

Απάντηση

Ακύρωση απάντησης