Ένα μοντέλο γλώσσας τεχνητής νοημοσύνης του Google DeepMind κάνει τώρα περιγραφές για το YouTube Shorts

On

Μάι 24, 2023

Η Google μόλις συνδύασε το DeepMind και το Google Brain σε μια μεγάλη ομάδα τεχνητής νοημοσύνης και την Τετάρτη, το νέο Google DeepMind μοιράστηκε λεπτομέρειες σχετικά με το πώς ένα από τα μοντέλα οπτικής γλώσσας (VLM) χρησιμοποιείται για τη δημιουργία περιγραφών για τα Shorts του YouTube, τα οποία μπορούν να βοηθήσουν στην ανακάλυψη.

“Τα Shorts δημιουργούνται μέσα σε λίγα μόνο λεπτά και συχνά δεν περιλαμβάνουν περιγραφές και χρήσιμους τίτλους, γεγονός που καθιστά δυσκολότερη την εύρεση τους μέσω της αναζήτησης.”

Έγραψε η DeepMind στην ανάρτηση

. Το Flamingo μπορεί να κάνει αυτές τις περιγραφές αναλύοντας τα αρχικά καρέ ενός βίντεο για να εξηγήσει τι συμβαίνει. (Η DeepMind δίνει το παράδειγμα “ένας σκύλος που εξισορροπεί μια στοίβα κροτίδες στο κεφάλι του.”) Οι περιγραφές κειμένου θα αποθηκευτούν ως μεταδεδομένα για “καλύτερη κατηγοριοποίηση των βίντεο και αντιστοίχιση των αποτελεσμάτων αναζήτησης με τα ερωτήματα των θεατών”.

Αυτό λύνει ένα πραγματικό πρόβλημα, λέει ο επικεφαλής επιχειρήσεων του Google DeepMind, Colin Murdoch

Το χείλος

: για τα Shorts, οι δημιουργοί μερικές φορές δεν προσθέτουν μεταδεδομένα επειδή η διαδικασία δημιουργίας ενός βίντεο είναι πιο βελτιωμένη από ό,τι για ένα βίντεο μεγαλύτερης μορφής. Ο Todd Sherman, διευθυντής διαχείρισης προϊόντων για τα Shorts, πρόσθεσε ότι επειδή τα Shorts παρακολουθούνται κυρίως σε μια ροή όπου οι άνθρωποι απλώς μετακινούνται προς το επόμενο βίντεο αντί να περιηγούνται ενεργά για αυτά, δεν υπάρχει τόσο μεγάλο κίνητρο για την προσθήκη των μεταδεδομένων.

«Αυτό το μοντέλο Flamingo – η ικανότητα να κατανοούμε αυτά τα βίντεο και να μας παρέχουμε περιγραφικό κείμενο – είναι πολύ πολύτιμο για να βοηθήσουμε τα συστήματά μας που ήδη αναζητούν αυτά τα μεταδεδομένα», λέει ο Sherman. “Τους επιτρέπει να κατανοούν πιο αποτελεσματικά αυτά τα βίντεο, ώστε να μπορούμε να κάνουμε αυτό το ταίριασμα για τους χρήστες όταν τα αναζητούν.”

ChatGPT: Το αφεντικό του θέλει έδρα στην Ευρώπη –

Η Garmin λανσάρει νέα premium smartwatches της σειράς Epix…

Το μυστικό όπλο του SecureSave: Suze Orman

Οι περιγραφές που δημιουργούνται δεν θα είναι στραμμένες προς τον χρήστη. «Μιλάμε για μεταδεδομένα που βρίσκονται στα παρασκήνια», λέει ο Sherman. «Δεν το παρουσιάζουμε στους δημιουργούς, αλλά καταβάλλεται μεγάλη προσπάθεια για να βεβαιωθούμε ότι είναι ακριβές». Όσο για το πώς η Google διασφαλίζει ότι αυτές οι περιγραφές είναι ακριβείς, «όλο το περιγραφικό κείμενο θα ευθυγραμμιστεί με τα πρότυπα ευθύνης μας», λέει ο Sherman. «Είναι πολύ απίθανο να δημιουργηθεί ένα περιγραφικό κείμενο που με κάποιο τρόπο πλαισιώνει ένα βίντεο με κακό φως. Αυτό δεν είναι ένα αποτέλεσμα που περιμένουμε καθόλου».

Το Flamingo εφαρμόζει ήδη περιγραφές που δημιουργούνται αυτόματα σε νέες μεταφορτώσεις Shorts

Το Flamingo εφαρμόζει ήδη περιγραφές που δημιουργούνται αυτόματα σε νέες μεταφορτώσεις Shorts και το έχει κάνει για «ένα μεγάλο σύνολο υπαρχόντων βίντεο, συμπεριλαμβανομένων των βίντεο με τις περισσότερες προβολές», σύμφωνα με τον εκπρόσωπο της DeepMind, Duncan Smith.

Έπρεπε να ρωτήσω εάν το Flamingo θα εφαρμοστεί σε βίντεο μεγαλύτερης διάρκειας στο YouTube. «Νομίζω ότι είναι απολύτως κατανοητό ότι θα μπορούσε», λέει ο Sherman. «Πιστεύω ότι η ανάγκη είναι μάλλον λίγο λιγότερη, ωστόσο». Σημειώνει ότι για ένα βίντεο μεγαλύτερης μορφής, ένας δημιουργός μπορεί να αφιερώσει ώρες σε πράγματα όπως η προπαραγωγή, η κινηματογράφηση και η επεξεργασία, επομένως η προσθήκη μεταδεδομένων είναι ένα σχετικά μικρό κομμάτι της διαδικασίας δημιουργίας ενός βίντεο. Και επειδή οι άνθρωποι συχνά παρακολουθούν βίντεο μεγαλύτερης μορφής που βασίζονται σε πράγματα όπως ένας τίτλος και μια μικρογραφία, οι δημιουργοί που τα δημιουργούν έχουν κίνητρο να προσθέσουν μεταδεδομένα που βοηθούν στην ανακάλυψη.

Οπότε υποθέτω ότι η απάντηση είναι ότι θα πρέπει να περιμένουμε και να δούμε. Ωστόσο, δεδομένης της μεγάλης ώθησης της Google να εμφυσήσει την τεχνητή νοημοσύνη σχεδόν σε ό,τι προσφέρει, η εφαρμογή κάτι σαν το Flamingo σε βίντεο μεγαλύτερης διάρκειας στο YouTube δεν φαίνεται εκτός του πεδίου των δυνατοτήτων, κάτι που θα μπορούσε να έχει τεράστιο αντίκτυπο στην αναζήτηση YouTube στο μέλλον.

theverge.com