Η νέα έρευνα τεχνητής νοημοσύνης σάς επιτρέπει να κάνετε κλικ και να σύρετε εικόνες για να τις χειριστείτε μέσα σε δευτερόλεπτα

On

Μάι 19, 2023

Όχι, δεν έχει τελειώσει ακόμα: η ικανότητα των εργαλείων AI να χειρίζονται εικόνες συνεχίζει να αυξάνεται. Το τελευταίο παράδειγμα είναι μόνο μια ερευνητική εργασία προς το παρόν, αλλά πολύ εντυπωσιακό, που επιτρέπει στους χρήστες να σύρουν απλώς στοιχεία μιας εικόνας για να αλλάξουν την εμφάνισή τους.

Αυτό δεν ακούγεται πολύ συναρπαστικό εκ πρώτης όψεως, αλλά ρίξτε μια ματιά στα παρακάτω παραδείγματα για να πάρετε μια ιδέα για το τι μπορεί να κάνει αυτό το σύστημα.

Όχι μόνο μπορείτε να αλλάξετε τις διαστάσεις ενός αυτοκινήτου ή να μετατρέψετε ένα χαμόγελο σε συνοφρύωμα με ένα απλό κλικ και σύρσιμο, αλλά μπορείτε να περιστρέψετε το θέμα μιας εικόνας σαν να ήταν ένα τρισδιάστατο μοντέλο — αλλάζοντας την κατεύθυνση που βλέπει κάποιος, για παράδειγμα. Ένα demo δείχνει ακόμη και τον χρήστη να προσαρμόζει τις αντανακλάσεις σε μια λίμνη και το ύψος μιας οροσειράς με μερικά κλικ.

Ακολουθεί μια επισκόπηση σε διάφορα θέματα:

Ακολουθεί μια πιο προσεκτική ματιά στη χειραγώγηση του τοπίου:

Το Ring Video Doorbell Plus χτυπάει στη χαμηλότερη τιμή του…

Το Mobvoi TicWatch 5 Pro ανακοινώθηκε με νέο SoC, βελτιωμένη…

Η Microsoft δημοσιεύει το προσχέδιό της για το πώς πιστεύει…

Και μόνο για πλάκα, μπλέκοντας με λιοντάρια:

Αυτά τα βίντεο προέρχονται από το

αρχική σελίδα της ερευνητικής ομάδας

αν και αυτό έχει καταρρεύσει λόγω του όγκου της επισκεψιμότητας που αποστέλλεται στον ιστότοπο από το Twitter (

κυρίως από τον χρήστη @_akhaliq

, που κάνει φανταστική δουλειά αναδεικνύοντας ενδιαφέροντα έγγραφα τεχνητής νοημοσύνης και αξίζει να τον ακολουθήσετε αν αυτό σας ενδιαφέρει). Μπορείτε επίσης να διαβάσετε την ερευνητική εργασία στο arXiv

ακριβώς εδώ

.

Όπως σημειώνει η υπεύθυνη ομάδα, αυτό που είναι πραγματικά ενδιαφέρον σε αυτό το έργο δεν είναι απαραίτητα η χειραγώγηση της εικόνας

per se

, αλλά η διεπαφή χρήστη. Ήμασταν σε θέση να χρησιμοποιήσουμε εργαλεία τεχνητής νοημοσύνης όπως τα GAN για να δημιουργήσουμε ρεαλιστικές εικόνες εδώ και λίγο καιρό, αλλά οι περισσότερες μέθοδοι στερούνται ευελιξίας και ακρίβειας. Μπορείτε να πείτε σε μια γεννήτρια εικόνων AI να «κάνει μια φωτογραφία ενός λιονταριού που καταδιώκει τη σαβάνα» και θα πάρετε μια, αλλά μπορεί να μην είναι

ακριβής

πόζα που θέλετε ή χρειάζεστε.

Αυτό το μοντέλο, που ονομάζεται DragGAN, προσφέρει μια ξεκάθαρη λύση σε αυτό. Η διασύνδεση είναι ακριβώς η ίδια με την παραδοσιακή παραμόρφωση εικόνας, αλλά αντί να μουτζουρώνει και να συνθλίβει απλώς τα υπάρχοντα pixel, το μοντέλο δημιουργεί εκ νέου το θέμα. Όπως γράφουν οι ερευνητές:[O]Η προσέγγισή σας μπορεί να έχει παραισθήσεις απόφραξης, όπως τα δόντια μέσα στο στόμα ενός λιονταριού, και μπορεί να παραμορφωθεί ακολουθώντας την ακαμψία του αντικειμένου, όπως το λύγισμα ενός ποδιού αλόγου».

Προφανώς αυτό είναι απλώς μια επίδειξη προς το παρόν και είναι αδύνατο να αξιολογηθεί πλήρως η τεχνολογία. (Πόσο ρεαλιστικές είναι οι τελικές εικόνες, για παράδειγμα; Είναι δύσκολο να πούμε με βάση τα διαθέσιμα βίντεο χαμηλής ανάλυσης.) Αλλά είναι ένα άλλο παράδειγμα για να γίνει πιο προσιτός ο χειρισμός της εικόνας.

theverge.com