Ένα από τα μεγαλύτερα προβλήματα με τα έργα
τέχνη
ς που δημιουργούνται από τεχνητή νοημοσύνη είναι η επίλυση του αποτελέσματος. Ακόμη και τα καλύτερα μοντέλα δημιουργούν μόνο εικόνα 1MP.
Αυτό είναι καλό για τα μέσα κοινωνικής δικτύωσης, αλλά αν θέλετε περισσότερο από ένα μικρό τετράγωνο στη γωνία της σελίδας, δεν είναι τόσο καλό για εκτύπωση. Και το ίδιο ζήτημα ισχύει αν θέλετε να επεκτείνετε μια πραγματική φωτογραφία με AI.
Σε απάντηση, μια ομάδα ερευνητών από το Πανεπιστήμιο του Surrey στο Ηνωμένο Βασίλειο ισχυρίζεται ότι έχει αναπτύξει μια τεχνική που μπορεί να δημιουργήσει εικόνες με 16 φορές μεγαλύτερη ανάλυση από τους μεγάλους παίκτες όπως το Midjourney, το DALL-E 3 και το SDXL 1.0 της Stable Diffusion.
Το αποτέλεσμα είναι μια γεννήτρια εικόνας AI που ονομάζεται DemoFusion και χρησιμοποιεί μια σχετικά απλή διαδικασία για να επιτύχει αυτά τα αποτελέσματα — δηλαδή, συνεχίζει να εκτελεί τη διαδικασία παρ
αγωγή
ς ξανά και ξανά μέχρι να βελτιωθεί η ποιότητα. Στη συνέχεια, το DemoFusion συρράπτει τα υποκείμενα δεδομένα μεταξύ τους. Είναι επίσης εντελώς ανοιχτού κώδικα και μπορεί να εκτελεστεί δωρεάν σε υπολογιστή gaming μεσαίου επιπέδου.
Πώς το DemoFusion συγκρίνεται με άλλες γεννήτριες εικόνων AI
(Εικόνα: DemoFusion)
Το DemoFusion, βασίζεται στο ανοιχτού κώδικα SDXL 1.0 από το StabilityAI, ένα μοντέλο παραγωγής εικόνων τεχνητής νοημοσύνης υψηλής απόδοσης που βασίζεται στο Stable Diffusion. Η SDXL 1.0 δημιουργεί εικόνες έως 1024 x 1024 ή 1MP.
Το Midjourney έχει κάνει κάποια δουλειά γύρω από την αναβάθμιση, φτάνοντας τα 2048 x 2048 σε δοκιμές beta, αλλά το βασικό μοντέλο εξακολουθεί να είναι το ίδιο με το DALL-E 3 από το OpenAI και το SDXL 1.0.
Κανένα από αυτά δεν πλησιάζει την ανάλυση φωτογραφιών που τραβήχτηκαν με smartphone. Τα πιο πρόσφατα iPhone και συσκευές Android προηγμένης τεχνολογίας καταγράφουν εικόνες 48 MP και άνω, οι οποίες έχουν ως αποτέλεσμα φωτογραφίες πλάτους τουλάχιστον 8.000 pixel — αρκετά μεγάλες για εκτύπωση.
Αρκετά τηλέφωνα Android, συμπεριλαμβανομένου του Samsung Galaxy S23 Ultra και του Honor 90, φτάνουν τα 200MP ή πλάτους άνω των 14.000 pixel. Το DemoFusion μπορεί να υπερηφανεύεται για εικόνες έως και 16 φορές από αυτές της SDXL 1.0, με ανάλυση 256MP ή 16.000 pixel σε κάθε κατεύθυνση.
Πόσο κοστίζει το DemoFusion;
(Εικόνα: DemoFusion)
Οι προγραμματιστές του νέου μοντέλου όχι μόνο το καθιστούν ανοιχτό κώδικα, αλλά δίνουν επίσης σημαντική έμφαση στον «εκδημοκρατισμό της πρόσβασης στην τεχνητή νοημοσύνη». Αυτό περιλαμβάνει τη διάθεση του μοντέλου και όλων των σχετικών λεπτομερειών δωρεάν για λήψη και εκτέλεση τοπικά.
Δεν έχω δοκιμάσει ακόμα το DemoFusion στον υπολογιστή μου, αλλά έχω τρέξει μια δοκιμαστική έκδοση στο Replicate, χρησιμοποιώντας ένα
τσιπ
Nvidia A100, δημιουργώντας μια σειρά εικόνων έως και 13MP. Αυτό είναι αρκετό για να εκτυπώσετε την έξοδο στα 300 pixel ανά ίντσα σε ένα φύλλο φωτογραφικού χαρτιού 8 x 12 χωρίς απώλεια ποιότητας.
Η όλη διαδικασία δημιουργίας μιας εικόνας κάποιου που μοιάζει με τον Winston Churchill που στέκεται σε μια παραλία σε ανάλυση 13MP διαρκεί περίπου 3 λεπτά. Θα χρειαστεί περισσότερος χρόνος εκτέλεσης σε μια πλατφόρμα gaming με GPU Nvidia ή MacBook με τσιπ M1, M2 ή M3, αλλά όχι πολύ.
Ποιο είναι το μειονέκτημα του DemoFusion;
(Εικόνα: DemoFusion)
Το μεγαλύτερο πρόβλημα που αντιμετωπίζει το DemoFusion είναι ο χρόνος. Ακόμη και όταν λειτουργεί με τα πιο ακριβά και ισχυρά τσιπ AI της Nvidia, μπορεί να χρειαστούν περίπου 10 λεπτά για τη δημιουργία εικόνας υψηλότερης ανάλυσης, σε σύγκριση με δευτερόλεπτα για τη βασική SDXL 1.0 ή το Midjourney.
Αυτό θα είναι ακόμη πιο έντονο όταν εκτελείται σε οικιακό υλικό υπολογιστή με τσιπ Nvidia ποιότητας gaming, εξήγησε ο καθηγητής Yi-Zhe
Song
, διευθυντής του εργαστηρίου SketchX AI από το Πανεπιστήμιο του Surrey, όπου αναπτύχθηκε το μοντέλο.
«Μας εξέπληξε όταν συνειδητοποιήσαμε την ποιότητα που μπορούσε να παράγει», μου είπε κατά τη διάρκεια μιας σύντομης συνέντευξης. Αλλά χρειάστηκε χρόνος για να δημιουργηθεί και για να το καταπολεμήσουν αυτό, οι ερευνητές σχεδιάζουν να εξερευνήσουν την
κατασκευή
μιας νέας έκδοσης πάνω από το πρόσφατα ανακοινωμένο μοντέλο SDXL Turbo που ξεκινά με εικόνες 512 x 512 pixel — το μισό μέγεθος του μεγάλου αδερφού του.
Το DemoFusion μπορεί να αναβαθμίσει τις υπάρχουσες εικόνες, αλλά χάνουν λεπτομέρειες ή αλλάζουν σημαντικά μετά από εννέα φορές μέσω του συστήματος
(Εικόνα: DemoFusion)
Το άλλο πρόβλημα είναι ότι το μοντέλο DemoFusion τείνει να περιπλανιέται και να κάνει αλλαγές όσες περισσότερες φορές τρέχετε. Οτιδήποτε μετά από περίπου εννέα φορές την αρχική ανάλυση, έχετε σημαντική απόκλιση από το σημείο που ξεκινήσατε.
Αυτό είναι ιδιαίτερα προφανές εάν χρησιμοποιείτε μια εικόνα ως προτροπή αντί για προτροπή κειμένου. Για να το δείξουν, οι ερευνητές έδειξαν μια αρχική εικόνα του Μίστερ Μπιν που έγινε διαφορετικός άνθρωπος μετά από εννέα περιστροφές.
Το DemoFusion έχει να κάνει με τη δημοκρατία
«Για εμάς ο πραγματικός στόχος είναι να το πάρουμε στα χέρια των ανθρώπων, να εκδημοκρατίσουμε την τεχνητή νοημοσύνη και να διευκολύνουμε τους δημιουργικούς», είπε ο Song. Το επόμενο έργο είναι η βελτίωση του ελέγχου του μοντέλου, δίνοντας στους καλλιτέχνες τη δυνατότητα να τελειοποιούν κάθε στοιχείο μιας εικόνας.
Το όραμα του τραγουδιού είναι αυτό όπου ένας καλλιτέχνης μπορεί να δημιουργήσει ένα πρόχειρο σκίτσο, ας πούμε, ένα χέρι ή ένα μπολ με φρούτα, και στη συνέχεια να χρησιμοποιήσει την τεχνητή νοημοσύνη για να το δημιουργήσει κομμάτι-κομμάτι σε ένα δημιουργικό έργο τέχνης, αντί να εισάγει απλώς ένα μήνυμα κειμένου και να εγκαταλείψει το AI για να το συνεχίσω.
Για εμάς ο πραγματικός στόχος είναι να το πάρουμε στα χέρια των ανθρώπων, να εκδημοκρατίσουμε την τεχνητή νοημοσύνη και να διευκολύνουμε τους δημιουργικούς.
— Καθηγητής Yi-Zhe Song
Βρήκα την ποιότητα του DemoFusion να είναι πραγματικά εντυπωσιακή. Είδα εικόνες ποιότητας εκτύπωσης από ένα απλό μήνυμα κειμένου, καθώς και τη δυνατότητα να βελτιώσω σημαντικά την ποιότητα των υπαρχουσών εικόνων —- και όλα είναι διαθέσιμα για εκτέλεση σε τοπικό υπολογιστή δωρεάν.
Όσον αφορά την ευκολία, αμφιβάλλω ότι το DemoFusion θα προσφέρει στους μεγάλους παίκτες μεγάλη προσπάθεια για τα χρήματά τους, καθώς χρειάζεστε πραγματικά μια λογικής ποιότητας GPU gaming, εκτός αν είστε έτοιμοι να περιμένετε ώρες για να δημιουργηθεί η εικόνα σας. Αλλά το DemoFusion είναι ένας καλός δείκτης του τι έρχεται και θα μπορούσε να θέσει τις βάσεις για τη δημιουργία εικόνας καλύτερης ποιότητας σε εταιρείες όπως το Midjourney και το DALL-E στο μέλλον.
Περισσότερα από το Tom’s Guide
VIA:
TomsGuide.com