Αυτή την εβδομάδα στο AI: Η μεγάλη τεχνολογία στοιχηματίζει δισεκατομμύρια σε εργαλεία μηχανικής εκμάθησης

Το να συμβαδίζεις με έναν κλάδο τόσο γρήγορο όσο η τεχνητή νοημοσύνη είναι μια μεγάλη παραγγελία. Έτσι, έως ότου μια τεχνητή νοημοσύνη μπορεί να το κάνει για εσάς, εδώ είναι μια χρήσιμη σύνοψη των ιστοριών της περασμένης εβδομάδας στον κόσμο της μηχανικής μάθησης, μαζί με αξιοσημείωτες έρευνες και πειράματα που δεν καλύψαμε από μόνα τους.

Αν δεν ήταν ήδη προφανές, το ανταγωνιστικό τοπίο στην τεχνητή νοημοσύνη – ιδιαίτερα το υποπεδίο που είναι γνωστό ως γενετική τεχνητή νοημοσύνη – είναι καυτό. Και γίνεται όλο και πιο ζεστό. Αυτή την εβδομάδα, το Dropbox κυκλοφόρησε το πρώτο εταιρικό venture fund του, το Dropbox Ventures, το οποίο η εταιρεία είπε ότι θα επικεντρωθεί σε νεοφυείς επιχειρήσεις που δημιουργούν προϊόντα με τεχνητή νοημοσύνη που «διαμορφώνουν το μέλλον της εργασίας». Για να μην μακρηγορούμε, η AWS έκανε το ντεμπούτο της ένα πρόγραμμα 100 εκατομμυρίων δολαρίων για τη χρηματοδότηση πρωτοβουλιών παραγωγής τεχνητής νοημοσύνης με επικεφαλής τους συνεργάτες και τους πελάτες της.

Υπάρχουν πολλά χρήματα που πετιούνται στον χώρο της τεχνητής νοημοσύνης, σίγουρα. Η Salesforce Ventures, το τμήμα VC της Salesforce, σχεδιάζει να διαθέσει 500 εκατομμύρια δολάρια σε νεοφυείς επιχειρήσεις που αναπτύσσουν τεχνολογίες τεχνητής νοημοσύνης. Ημέρα εργασίας

πρόσφατα

πρόσθεσε 250 εκατομμύρια δολάρια στο υπάρχον ταμείο VC ειδικά για την υποστήριξη νεοφυών επιχειρήσεων τεχνητής νοημοσύνης και μηχανικής μάθησης. Και η Accenture και η PwC ανακοίνωσαν ότι σχεδιάζουν να επενδύσουν 3 δισεκατομμύρια δολάρια και 1 δισεκατομμύριο δολάρια, αντίστοιχα, στην τεχνητή νοημοσύνη.

Αλλά αναρωτιέται κανείς εάν τα χρήματα είναι η λύση στις εξαιρετικές προκλήσεις του τομέα της τεχνητής νοημοσύνης.

Σε ένα διαφωτιστικό πάνελ κατά τη διάρκεια μιας διάσκεψης του Bloomberg στο Σαν Φρανσίσκο αυτή την εβδομάδα, η Meredith Whittaker, η πρόεδρος της εφαρμογής ασφαλών μηνυμάτων Signal, υποστήριξε ότι η τεχνολογία που στηρίζει ορισμένες από τις πιο πολυσύχναστες εφαρμογές τεχνητής νοημοσύνης του σήμερα γίνεται επικίνδυνα αδιαφανής. Έφερε ένα παράδειγμα κάποιου που μπαίνει σε μια τράπεζα και ζητά δάνειο.

Αυτό το άτομο μπορεί να απορριφθεί για το δάνειο και «δεν έχει ιδέα ότι υπάρχει σύστημα [the] πίσω πιθανότατα τροφοδοτείται από κάποιο API της Microsoft που καθόριζε, με βάση τα αποκομμένα μέσα κοινωνικής δικτύωσης, ότι δεν ήμουν φερέγγυος», είπε ο Whittaker. “

Δεν πρόκειται να μάθω ποτέ [because] δεν υπάρχει μηχανισμός για να το ξέρω αυτό».

Δεν είναι το κεφάλαιο αυτό είναι το θέμα. Μάλλον, είναι η τρέχουσα ιεραρχία εξουσίας, λέει ο Whittaker.

«Είμαι στο τραπέζι για περίπου 15 χρόνια, 20 χρόνια. Εγώ έχω

ήταν

στο τραπέζι. Το να είσαι στο τραπέζι χωρίς δύναμη δεν είναι τίποτα», συνέχισε.

Φυσικά, η επίτευξη διαρθρωτικών αλλαγών είναι πολύ πιο δύσκολη από την αναζήτηση μετρητών – ιδιαίτερα όταν η διαρθρωτική αλλαγή δεν θα ευνοήσει απαραίτητα τις δυνάμεις. Και ο Whittaker προειδοποιεί τι μπορεί να συμβεί αν δεν υπάρξει αρκετή ώθηση.

Καθώς η πρόοδος στην τεχνητή νοημοσύνη επιταχύνεται, οι κοινωνικές επιπτώσεις επιταχύνονται επίσης, και θα συνεχίσουμε να κατευθυνόμαστε σε έναν «γεμάτο δρόμο προς την τεχνητή νοημοσύνη», είπε, «όπου αυτή η δύναμη είναι εδραιωμένη και πολιτογραφημένη υπό το πρόσχημα της νοημοσύνης και παρακολουθούμαστε το σημείο [of having] πολύ, πολύ λίγη συμμετοχή στις ατομικές και συλλογικές μας ζωές».

Οτι

πρέπει

παύση στον κλάδο. Είτε όντως

θα

είναι άλλο θέμα. Αυτό είναι μάλλον κάτι που θα ακούσουμε να συζητείται όταν ανέβει στη σκηνή στο Disrupt τον Σεπτέμβριο.

Ακολουθούν οι άλλοι τίτλοι τεχνητής νοημοσύνης από τις τελευταίες ημέρες:


  • Το AI της DeepMind ελέγχει τα ρομπότ:

    Η DeepMind λέει ότι έχει αναπτύξει ένα μοντέλο AI, που ονομάζεται RoboCat, το οποίο μπορεί να εκτελέσει μια σειρά εργασιών σε διαφορετικά μοντέλα ρομποτικών βραχιόνων. Αυτό από μόνο του δεν είναι ιδιαίτερα νέο. Αλλά η DeepMind ισχυρίζεται ότι το μοντέλο είναι το πρώτο που μπορεί να λύσει και να προσαρμοστεί σε πολλαπλές εργασίες και να το κάνει χρησιμοποιώντας διαφορετικά ρομπότ πραγματικού κόσμου.

  • Τα ρομπότ μαθαίνουν από το YouTube:

    Μιλώντας για τα ρομπότ, ο βοηθός καθηγητής του CMU Robotics Institute Deepak Pathak αυτή την εβδομάδα

    παρουσίασε το VRB

    (Vision-Robotics Bridge), ένα σύστημα AI σχεδιασμένο να εκπαιδεύει ρομποτικά συστήματα παρακολουθώντας μια εγγραφή ανθρώπου. Το ρομπότ παρακολουθεί μερικές βασικές πληροφορίες, συμπεριλαμβανομένων των σημείων επαφής και της τροχιάς, και στη συνέχεια επιχειρεί να εκτελέσει την εργασία.

  • Ο Otter μπαίνει στο παιχνίδι chatbot:

    Υπηρεσία αυτόματης μεταγραφής

    Βίδρα

    ανακοίνωσε ένα νέο chatbot με τεχνητή νοημοσύνη αυτή την εβδομάδα που θα επιτρέψει στους συμμετέχοντες να κάνουν ερωτήσεις κατά τη διάρκεια και μετά από μια συνάντηση και θα τους βοηθήσει να συνεργαστούν με τους συμπαίκτες τους.

  • Η ΕΕ ζητά ρύθμιση της τεχνητής νοημοσύνης:

    Οι ευρωπαϊκές ρυθμιστικές αρχές βρίσκονται σε σταυροδρόμι σχετικά με τον τρόπο με τον οποίο η τεχνητή νοημοσύνη θα ρυθμιστεί — και τελικά θα χρησιμοποιηθεί εμπορικά και μη — στην περιοχή. Αυτή την εβδομάδα, η μεγαλύτερη ομάδα καταναλωτών της ΕΕ, η Ευρωπαϊκή Οργάνωση Καταναλωτών (BEUC),

    ζυγίστηκε με τη δική της θέση

    : Σταματήστε να σέρνετε τα πόδια σας και «ξεκινήστε επείγουσες έρευνες για τους κινδύνους της γενετικής τεχνητής νοημοσύνης» τώρα, ανέφερε.

  • Το Vimeo λανσάρει λειτουργίες που υποστηρίζονται από AI:

    Αυτή την εβδομάδα, το Vimeo ανακοίνωσε μια σουίτα εργαλείων με τεχνητή νοημοσύνη που έχουν σχεδιαστεί για να βοηθούν τους χρήστες να δημιουργούν σενάρια, να καταγράφουν πλάνα χρησιμοποιώντας έναν ενσωματωμένο τηλεπρομηθευτή και να αφαιρούν μεγάλες παύσεις και ανεπιθύμητες αποκλίσεις όπως “ahs” και “ums” από τις ηχογραφήσεις.

  • Κεφάλαιο για συνθετικές φωνές:


    Eleven Labs

    , η ιογενής πλατφόρμα με τεχνητή νοημοσύνη για τη δημιουργία συνθετικών φωνών, συγκέντρωσε 19 εκατομμύρια δολάρια σε έναν νέο γύρο χρηματοδότησης. Το ElevenLabs πήρε τον ατμό αρκετά γρήγορα μετά την κυκλοφορία του στα τέλη Ιανουαρίου. Αλλά η δημοσιότητα δεν ήταν πάντα θετική – ειδικά μια φορά

    κακούς ηθοποιούς

    άρχισαν να εκμεταλλεύονται την πλατφόρμα για τους δικούς τους σκοπούς.

  • Μετατροπή ήχου σε κείμενο:

    Η Gladia, μια γαλλική startup τεχνητής νοημοσύνης, λάνσαρε μια πλατφόρμα που αξιοποιεί το μοντέλο μεταγραφής Whisper του OpenAI για να μετατρέψει οποιονδήποτε ήχο σε κείμενο σε σχεδόν πραγματικό χρόνο —μέσω ενός API. Η Gladia υπόσχεται ότι μπορεί να μεταγράψει μια ώρα ήχου για 0,61 $, με τη διαδικασία μεταγραφής να διαρκεί περίπου 60 δευτερόλεπτα.

  • Το Harness αγκαλιάζει τη γενετική AI:


    Ιπποσκευή

    , μια startup που δημιουργεί μια εργαλειοθήκη για να βοηθήσει τους προγραμματιστές να λειτουργούν πιο αποτελεσματικά, αυτή την εβδομάδα έδωσε στην πλατφόρμα της λίγη τεχνητή νοημοσύνη. Τώρα, το Harness μπορεί να επιλύσει αυτόματα τις αποτυχίες κατασκευής και ανάπτυξης, να εντοπίσει και να διορθώσει ευπάθειες ασφαλείας και να κάνει προτάσεις για να θέσει υπό έλεγχο το κόστος του cloud.

Άλλες μηχανές εκμάθησης

Αυτή την εβδομάδα ήταν το CVPR στο Βανκούβερ του Καναδά και μακάρι να μπορούσα να είχα πάει γιατί οι συνομιλίες και τα έγγραφα φαίνονται εξαιρετικά ενδιαφέροντα. Εάν μπορείτε να παρακολουθήσετε μόνο ένα, ρίξτε μια ματιά

Κεντρική ομιλία του Yejin Choi

σχετικά με τις δυνατότητες, τις αδυναμίες και τα παράδοξα της τεχνητής νοημοσύνης.


Συντελεστές εικόνας:

CVPR/YouTube

Ο καθηγητής του UW και αποδέκτης της υποτροφίας MacArthur Genius αρχικά αντιμετώπισε μερικούς απροσδόκητους περιορισμούς των πιο ικανών μοντέλων του σήμερα. Συγκεκριμένα, το GPT-4 είναι πολύ κακό στον πολλαπλασιασμό. Αποτυγχάνει να βρει σωστά το γινόμενο δύο τριψήφιων αριθμών με εκπληκτικό ρυθμό, αν και με λίγη πεποίθηση μπορεί να το βρει σωστά στο 95% των περιπτώσεων. Γιατί έχει σημασία που ένα μοντέλο γλώσσας δεν μπορεί να κάνει μαθηματικά, ρωτάτε; Επειδή ολόκληρη η αγορά τεχνητής νοημοσύνης αυτή τη στιγμή βασίζεται στην ιδέα ότι τα γλωσσικά μοντέλα γενικεύονται καλά σε πολλές ενδιαφέρουσες εργασίες, συμπεριλαμβανομένων πραγμάτων όπως η φορολογία ή η λογιστική. Το θέμα του Choi ήταν ότι θα έπρεπε να αναζητούμε τους περιορισμούς της τεχνητής νοημοσύνης και να δουλεύουμε προς τα μέσα, όχι το αντίστροφο, καθώς μας λέει περισσότερα για τις δυνατότητές τους.

Τα άλλα μέρη της ομιλίας της ήταν εξίσου ενδιαφέροντα και προκαλώντας σκέψεις.

Μπορείτε να παρακολουθήσετε ολόκληρο εδώ

.

Ο Ροντ Μπρουκς, που παρουσιάστηκε ως «δολοφόνος της διαφημιστικής εκστρατείας»,

έδωσε μια ενδιαφέρουσα ιστορία ορισμένων από τις βασικές έννοιες της μηχανικής μάθησης

— Έννοιες που φαίνονται μόνο καινούριες επειδή οι περισσότεροι που τις εφαρμόζουν δεν υπήρχαν όταν εφευρέθηκαν! Γυρίζοντας πίσω στις δεκαετίες, αγγίζει τον McCulloch, τον Minsky, ακόμη και τον Hebb — και δείχνει πώς οι ιδέες παρέμειναν επίκαιρες πολύ πέρα ​​από την εποχή τους. Είναι μια χρήσιμη υπενθύμιση ότι η μηχανική μάθηση είναι ένα πεδίο που στέκεται στους ώμους γιγάντων που επιστρέφουν στη μεταπολεμική εποχή.

Πολλές, πολλές εργασίες υποβλήθηκαν και παρουσιάστηκαν στο CVPR, και είναι περιοριστικό να εξετάζουμε μόνο τους νικητές των βραβείων, αλλά αυτό είναι μια σύνοψη ειδήσεων, όχι μια ολοκληρωμένη βιβλιογραφική ανασκόπηση. Ορίστε λοιπόν αυτό που οι κριτές στο συνέδριο θεώρησαν ότι ήταν το πιο ενδιαφέρον:


Συντελεστές εικόνας:

AI2


VISPROG

, από ερευνητές στο AI2, είναι ένα είδος μετα-μοντέλου που εκτελεί σύνθετες εργασίες οπτικής χειραγώγησης χρησιμοποιώντας μια εργαλειοθήκη κώδικα πολλαπλών χρήσεων. Ας υποθέσουμε ότι έχετε μια φωτογραφία μιας αρκούδας γκρίζλι σε λίγο γρασίδι (όπως απεικονίζεται) — μπορείτε να της πείτε να «αντικαταστήσει την αρκούδα με μια πολική αρκούδα στο χιόνι» και αρχίζει να λειτουργεί. Προσδιορίζει τα μέρη της εικόνας, τα διαχωρίζει οπτικά, αναζητά και βρίσκει ή δημιουργεί μια κατάλληλη αντικατάσταση και συρράπτει το σύνολο ξανά έξυπνα, χωρίς να χρειάζεται περαιτέρω προτροπή από την πλευρά του χρήστη. Η διεπαφή “βελτίωση” του Blade Runner αρχίζει να φαίνεται καθαρά πεζή. Και αυτή είναι μόνο μία από τις πολλές δυνατότητές του.


«Αυτόνομη οδήγηση με γνώμονα τον προγραμματισμό»,

από μια πολυϊδρυματική κινεζική ερευνητική ομάδα, επιχειρεί να ενοποιήσει τα διάφορα κομμάτια της μάλλον αποσπασματικής προσέγγισης που ακολουθήσαμε για τα αυτόνομα αυτοκίνητα. Συνήθως υπάρχει ένα είδος σταδιακής διαδικασίας «αντίληψης, πρόβλεψης και σχεδιασμού», καθεμία από τις οποίες μπορεί να έχει μια σειρά από δευτερεύουσες εργασίες (όπως τμηματοποίηση ατόμων, εντοπισμός εμποδίων, κ.λπ.). Το μοντέλο τους επιχειρεί να τα βάλει όλα αυτά σε ένα μοντέλο, κάπως σαν τα πολυτροπικά μοντέλα που βλέπουμε ότι μπορούν να χρησιμοποιούν κείμενο, ήχο ή εικόνες ως είσοδο και έξοδο. Παρομοίως, αυτό το μοντέλο απλοποιεί κατά κάποιο τρόπο τις πολύπλοκες αλληλεξαρτήσεις μιας σύγχρονης στοίβας αυτόνομης οδήγησης.


DynIBaR

δείχνει μια υψηλής ποιότητας και ισχυρή μέθοδο αλληλεπίδρασης με βίντεο χρησιμοποιώντας “δυναμικά πεδία νευρικής ακτινοβολίας” ή NeRF. Η βαθιά κατανόηση των αντικειμένων στο βίντεο επιτρέπει πράγματα όπως σταθεροποίηση, κινήσεις κουκλών και άλλα πράγματα που γενικά δεν αναμένετε να είναι δυνατά όταν το βίντεο έχει ήδη εγγραφεί. Και πάλι… «ενίσχυση». Αυτό είναι σίγουρα το είδος για το οποίο σας προσλαμβάνει η Apple και, στη συνέχεια, σας παίρνει τα εύσημα στο επόμενο WWDC.


DreamBooth

ίσως θυμάστε από λίγο νωρίτερα φέτος, όταν η σελίδα του έργου κυκλοφόρησε. Είναι το καλύτερο σύστημα μέχρι τώρα, δεν υπάρχει τρόπος να το πούμε, κάνοντας deepfakes. Φυσικά, είναι πολύτιμο και ισχυρό να κάνετε αυτού του είδους τις λειτουργίες εικόνας, για να μην αναφέρουμε διασκεδαστικό, και ερευνητές όπως αυτοί της Google εργάζονται για να το κάνουν πιο απρόσκοπτο και ρεαλιστικό. Συνέπειες… αργότερα, ίσως.

Το βραβείο καλύτερης μαθητικής εργασίας απονέμεται σε μια μέθοδο σύγκρισης και αντιστοίχισης ματιών ή τρισδιάστατων σημείων σύννεφων — ειλικρινά είναι πολύ τεχνικό για μένα να προσπαθήσω να το εξηγήσω, αλλά αυτή είναι μια σημαντική ικανότητα για την αντίληψη του πραγματικού κόσμου και οι βελτιώσεις είναι ευπρόσδεκτες.

Δείτε το έντυπο εδώ για παραδείγματα και περισσότερες πληροφορίες.

Μόλις δύο ακόμη ψήγματα: Η Intel έδειξε

αυτό το ενδιαφέρον μοντέλο, το LDM3D

, για τη δημιουργία εικόνων 3D 360 όπως εικονικά περιβάλλοντα. Έτσι, όταν βρίσκεστε στο μετασύμπαν και λέτε «βάλτε μας σε ένα κατάφυτο ερείπιο στη ζούγκλα», δημιουργείται απλώς ένα νέο κατά παραγγελία.

Και ο Meta κυκλοφόρησε

ένα εργαλείο σύνθεσης φωνής που ονομάζεται Voicebox

είναι πολύ καλό στην εξαγωγή χαρακτηριστικών φωνών και στην αναπαραγωγή τους, ακόμη και όταν η είσοδος δεν είναι καθαρή. Συνήθως για αναπαραγωγή φωνής χρειάζεστε μια καλή ποσότητα και ποικιλία καθαρών ηχογραφήσεων φωνής, αλλά το Voicebox το κάνει καλύτερα από πολλές άλλες, με λιγότερα δεδομένα (σκεφτείτε 2 δευτερόλεπτα). Ευτυχώς κρατούν αυτό το τζίνι στο μπουκάλι προς το παρόν. Για όσους πιστεύουν ότι μπορεί να χρειαστούν κλωνοποίηση της φωνής τους, ρίξτε μια ματιά στο Acapela.


techcrunch.com



You might also like


Leave A Reply



Cancel Reply

Your email address will not be published.