Ο γενετικός αγώνας βίντεο της Κίνας θερμαίνεται

By

Marizas Dimitris

On

Φεβ 6, 2024

Τη Δευτέρα, η Tencent, ο κινεζικός γίγαντας του Διαδικτύου, γνωστός για την αυτοκρατορία των βιντεοπαιχνιδιών και την εφαρμογή συνομιλίας WeChat,

αποκαλύφθηκε

μια νέα έκδοση του μοντέλου δημιουργίας βίντεο ανοιχτού κώδικα DynamiCrafter στο GitHub. Είναι μια υπενθύμιση ό

τι

μερικές από τις μεγαλύτερες εταιρείες τεχνολογίας της Κίνας εντείνουν αθόρυβα τις προσπάθειες για να κάνουν ένα βαθούλωμα στον χώρο του κειμένου και της εικόνας σε βίντεο.

Όπως και άλλα εργαλεία παραγωγής βίντεο στην αγορά, το DynamiCrafter χρησιμοποιεί τη μέθοδο διάχυσης για να μετατρέψει τους υπότιτλους και τις στατικές εικόνες σε βίντεο διάρκειας δευτερολέπτων. Εμπνευσμένα από το φυσικό φαινόμενο της διάχυσης στη φυσική, τα μοντέλα διάχυσης στη μηχανική

μάθηση

μπορούν να μετατρέψουν απλά δεδομένα σε πιο περίπλοκα και ρεαλιστικά δεδομένα, παρόμοια με το πώς τα σωματίδια μετακινούνται από μια περιοχή υψηλής συγκέντρωσης σε μια άλλη χαμηλής συγκέντρωσης.

Η δεύτερη γενιά του DynamiCrafter παράγει βίντεο με ανάλυση

pixel

640×1024, μια αναβάθμιση από την αρχική του

κυκλοφορία

τον Οκτώβριο

που

περιείχε βίντεο 320×512. Ένας ακαδημαϊκός

χαρτί

που δημοσιεύτηκε από την ομάδα πίσω από το DynamiCrafter σημειώνει ότι η τεχνολογία του διαφέρει από εκείνη των ανταγωνιστών στο ότι διευρύνει την εφαρμογή των τεχνικών κινούμενων εικόνων σε «γενικότερο οπτικό περιεχόμενο».

«Η βασική ιδέα είναι να χρησιμοποιηθεί η κίνηση πριν από τα μοντέλα διάχυσης κειμένου σε βίντεο ενσωματώνοντας την εικόνα στη διαδικασία παραγωγής ως καθοδήγηση», λέει η εφημερίδα. Οι «παραδοσιακές» τεχνικές, σε σύγκριση, «επικεντρώνονται κυρίως στην εμψύχωση φυσικών σκηνών με στοχαστική δυναμική (π.χ. σύννεφα και ρευστό) ή κινήσεις που αφορούν συγκεκριμένες περιοχές (π.χ. κινήσεις ανθρώπινων μαλλιών ή σώματος).»

Σε μια επίδειξη (δείτε παρακάτω) που συγκρίνει το DynamiCrafter, το Stable Video Diffusion (που κυκλοφόρησε τον Νοέμβριο) και το πρόσφατα δημοφιλές Pika Labs, το αποτέλεσμα του μοντέλου Tencent εμφανίζεται ελαφρώς πιο κινούμενο από άλλα. Αναπόφευκτα, τα επιλεγμένα δείγματα θα ευνοούσαν το DynamiCrafter και κανένα από τα μοντέλα, μετά τις λίγες αρχικές μου προσπάθειες, δεν αφήνει την εντύπωση ότι η τεχνητή νοημοσύνη θα είναι σύντομα σε θέση να παράγει ολοκληρωμένες ταινίες.

Παρόλα αυτά, τα δημιουργικά βίντεο έχουν δοθεί μεγάλες ελπίδες ως το επόμενο σημείο εστίασης στον αγώνα τεχνητής νοημοσύνης μετά την έκρηξη του δημιουργικού κειμένου και εικόνων. Ως εκ τούτου, αναμένεται ότι οι νεοφυείς επιχειρήσεις και οι κατεστημένοι τεχνολογικοί φορείς διοχετεύουν πόρους στο πεδίο. Αυτό δεν αποτελεί εξαίρεση στην Κίνα. Εκτός από την Tencent, η μητρική του TikTok ByteDance, η Baidu και η Alibaba έχουν κυκλοφορήσει τα μοντέλα διάχυσης βίντεο.

Και τα δύο ByteDance

MagicVideo

και του Baidu

UniVG

έχουν δημοσιεύσει επιδείξεις στο GitHub, αν και κανένα από τα δύο δεν φαίνεται να είναι ακόμη διαθέσιμο στο κοινό. Όπως και η Tencent, η Alibaba έφτιαξε το μοντέλο της γενιάς βίντεο VGen

ανοιχτή πηγή

μια στρατηγική που είναι ολοένα και πιο δημοφιλής μεταξύ των κινεζικών εταιρειών τεχνολογίας που ελπίζουν να προσεγγίσουν την παγκόσμια κοινότητα προγραμματιστών.

VIA:

techcrunch.com

AI

china

Generative AI

generative video

pixel

tencent

tiktok

video generation

βίντεο

γενετικό βίντεο