Οι γεννήτριες τέχνης τεχνητής νοημοσύνης κειμένου εμποδίζουν τους καλλιτέχνες περισσότερο από ό,τι τους βοηθά
Related Posts
:
OpenAI
Η δημιουργία τέχνης χρησιμοποιώντας τεχνητή νοημοσύνη δεν είναι καινούργια.
Είναι τόσο παλιό όσο το ίδιο το AI
.
Το νέο είναι ότι ένα κύμα εργαλείων επιτρέπει πλέον στους περισσότερους ανθρώπους να δημιουργούν εικόνες εισάγοντας μια προτροπή κειμένου. Το μόνο που χρειάζεται να κάνετε είναι να γράψετε «ένα τοπίο στο στυλ του Βαν Γκογκ» σε ένα πλαίσιο κειμένου και το AI μπορεί να δημιουργήσει μια όμορφη εικόνα σύμφωνα με τις οδηγίες.
Η δύναμη αυτής της τεχνολογίας έγκειται στην ικανότητά της να χρησιμοποιεί την ανθρώπινη γλώσσα για τον έλεγχο της παραγωγής τέχνης. Αλλά αυτά τα συστήματα μεταφράζουν με ακρίβεια το όραμα ενός καλλιτέχνη; Μπορεί η εισαγωγή της γλώσσας στην τέχνη να οδηγήσει πραγματικά σε καλλιτεχνικές ανακαλύψεις;
Μηχανικά αποτελέσματα
Έχω δουλέψει με γενετική τεχνητή νοημοσύνη
ως καλλιτέχνης και επιστήμονας υπολογιστών
για χρόνια, και θα υποστήριζα ότι αυτός ο νέος τύπος εργαλείου περιορίζει τη δημιουργική διαδικασία.
Όταν γράφετε μια προτροπή κειμένου για να δημιουργήσετε μια εικόνα με AI, υπάρχουν άπειρες δυνατότητες. Εάν είστε απλός χρήστης, μπορεί να είστε ευχαριστημένοι με αυτό που δημιουργεί η τεχνητή νοημοσύνη για εσάς. Και
startups
και επενδυτές
έχουν χυθεί δισεκατομμύρια
σε αυτήν την τεχνολογία, θεωρώντας την ως έναν εύκολο τρόπο δημιουργίας γραφικών για άρθρα, χαρακτήρες βιντεοπαιχνιδιών και διαφημίσεις.

Το Generative AI θεωρείται ως ένα πολλά υποσχόμενο εργαλείο για την εύρεση χαρακτήρων βιντεοπαιχνιδιών.
:
Benlisquare/Wikimedia Commons, CC BY-SA
Αντίθετα, ένας καλλιτέχνης μπορεί να χρειαστεί να γράψει μια προτροπή σαν δοκίμιο για να δημιουργήσει μια εικόνα υψηλής ποιότητας που αντικατοπτρίζει το όραμά του – με τη σωστή σύνθεση, τον σωστό φωτισμό και τη σωστή σκίαση. Αυτή η μεγάλη προτροπή δεν είναι απαραίτητα περιγραφική της εικόνας, αλλά συνήθως χρησιμοποιεί πολλές λέξεις-κλειδιά για να επικαλεστεί το σύστημα αυτού που έχει στο μυαλό του καλλιτέχνη. Υπάρχει ένας σχετικά νέος όρος για αυτό:
άμεση μηχανική
.
Βασικά, ο ρόλος ενός καλλιτέχνη που χρησιμοποιεί αυτά τα εργαλεία περιορίζεται στην αντίστροφη μηχανική του συστήματος για να βρει τις σωστές λέξεις-κλειδιά που θα αναγκάσουν το σύστημα να δημιουργήσει το επιθυμητό αποτέλεσμα. Χρειάζεται πολλή προσπάθεια, και πολλές δοκιμές και λάθη, για να βρεις τις σωστές λέξεις.
Το AI δεν είναι τόσο έξυπνο όσο φαίνεται
Για να μάθετε πώς να ελέγχετε καλύτερα τις εξόδους, είναι σημαντικό να αναγνωρίσετε ότι τα περισσότερα από αυτά τα συστήματα
εκπαιδεύονται σε εικόνες και λεζάντες από το διαδίκτυο
.
Σκεφτείτε τι λέει μια τυπική λεζάντα εικόνας για μια εικόνα. Οι υπότιτλοι γράφονται συνήθως για να συμπληρώσουν την οπτική εμπειρία κατά την περιήγηση στον ιστό.
Για παράδειγμα, η λεζάντα μπορεί να περιγράφει το όνομα του φωτογράφου και του κατόχου των πνευματικών δικαιωμάτων. Σε ορισμένους ιστότοπους, όπως το Flickr, μια λεζάντα περιγράφει συνήθως τον τύπο της κάμερας και τον φακό που χρησιμοποιείται. Σε άλλους ιστότοπους, η λεζάντα περιγράφει τη μηχανή γραφικών και το υλικό που χρησιμοποιείται για την απόδοση μιας εικόνας.
Έτσι, για να γράψουν ένα χρήσιμο μήνυμα κειμένου, οι χρήστες πρέπει να εισαγάγουν πολλές μη περιγραφικές λέξεις-κλειδιά για το σύστημα AI για να δημιουργήσουν μια αντίστοιχη εικόνα.
Τα σημερινά συστήματα τεχνητής νοημοσύνης δεν είναι τόσο έξυπνα όσο φαίνονται. είναι ουσιαστικά έξυπνα συστήματα ανάκτησης που έχουν τεράστια μνήμη και λειτουργούν με συσχετισμό.
Οι καλλιτέχνες απογοητευμένοι από την έλλειψη ελέγχου
Είναι πραγματικά αυτό το είδος εργαλείου που μπορεί να βοηθήσει τους καλλιτέχνες να δημιουργήσουν σπουδαία έργα;
Στην Playform AI, μια παραγωγική πλατφόρμα τέχνης τεχνητής νοημοσύνης που ίδρυσα εγώ, εμείς
διενήργησε έρευνα
να κατανοήσουν καλύτερα τις εμπειρίες των καλλιτεχνών με τη γενετική τεχνητή νοημοσύνη. Συλλέξαμε απαντήσεις από περισσότερους από 500 ψηφιακούς καλλιτέχνες, παραδοσιακούς ζωγράφους, φωτογράφους, εικονογράφους και γραφίστες που είχαν χρησιμοποιήσει πλατφόρμες όπως DALL-E, Stable Diffusion και Midjourney, μεταξύ άλλων.
Μόνο το 46% των ερωτηθέντων θεώρησε ότι τέτοια εργαλεία είναι «πολύ χρήσιμα», ενώ το 32% τα θεώρησε κάπως χρήσιμα, αλλά δεν μπορούσαν να τα ενσωματώσουν στη ροή εργασίας τους. Οι υπόλοιποι χρήστες – το 22% – δεν τα βρήκαν καθόλου χρήσιμα.
Ο κύριος περιορισμός που τόνισαν οι καλλιτέχνες και οι σχεδιαστές ήταν η έλλειψη ελέγχου. Σε μια κλίμακα από το 0 έως το 10, με το 10 να είναι ο περισσότερος έλεγχος, οι ερωτηθέντες περιέγραψαν την ικανότητά τους να ελέγχουν το αποτέλεσμα μεταξύ 4 και 5. Οι μισοί από τους ερωτηθέντες βρήκαν τα αποτελέσματα ενδιαφέροντα, αλλά όχι αρκετά υψηλής ποιότητας για να χρησιμοποιηθούν στην πρακτική τους.
Όταν επρόκειτο για τις πεποιθήσεις σχετικά με το εάν η γενετική τεχνητή νοημοσύνη θα επηρέαζε την πρακτική τους, το 90% των καλλιτεχνών που συμμετείχαν στην έρευνα πίστευαν ότι θα επηρέαζε. Το 46% πίστευε ότι το αποτέλεσμα θα ήταν θετικό, με το 7% να προβλέπει ότι θα είχε αρνητικό αποτέλεσμα. Και το 37% πίστευε ότι η πρακτική του θα επηρεαζόταν, αλλά δεν ήταν σίγουρο με ποιον τρόπο.
Η καλύτερη εικαστική τέχνη ξεπερνά τη γλώσσα
Είναι αυτοί οι περιορισμοί θεμελιώδεις ή απλώς θα εξαφανιστούν καθώς βελτιώνεται η τεχνολογία;
Φυσικά, οι νεότερες εκδόσεις του Generative AI θα δώσουν στους χρήστες περισσότερο έλεγχο στις εξόδους, μαζί με υψηλότερες αναλύσεις και καλύτερη ποιότητα εικόνας.
Αλλά για μένα, ο κύριος περιορισμός, όσον αφορά την τέχνη, είναι θεμελιώδης: είναι η διαδικασία χρήσης της γλώσσας ως κύριος μοχλός για τη δημιουργία της εικόνας.
Οι εικαστικοί καλλιτέχνες, εξ ορισμού, είναι
οπτικοί στοχαστές
. Όταν φαντάζονται τη δουλειά τους, συνήθως αντλούν από οπτικές αναφορές, όχι λέξεις – μια ανάμνηση, μια συλλογή φωτογραφιών ή άλλη τέχνη που έχουν συναντήσει.
Όταν η γλώσσα βρίσκεται στη θέση του οδηγού για τη δημιουργία εικόνων, βλέπω ένα επιπλέον εμπόδιο μεταξύ του καλλιτέχνη και του ψηφιακού καμβά. Τα εικονοστοιχεία θα αποδοθούν μόνο μέσω του φακού της γλώσσας. Οι καλλιτέχνες χάνουν την ελευθερία να χειρίζονται pixel εκτός των ορίων της σημασιολογίας.
:
OpenAI/Wikimedia Commons
Υπάρχει ένας άλλος θεμελιώδης περιορισμός στην τεχνολογία κειμένου σε εικόνα.
Εάν δύο καλλιτέχνες εισαγάγουν την ίδια ακριβώς προτροπή, είναι πολύ απίθανο το σύστημα να δημιουργήσει την ίδια εικόνα. Αυτό δεν οφείλεται σε τίποτα που έκανε ο καλλιτέχνης. τα διαφορετικά αποτελέσματα οφείλονται απλώς στο AI
ξεκινώντας από διαφορετικές τυχαίες αρχικές εικόνες
.
Με άλλα λόγια, η παραγωγή του καλλιτέχνη συνοψίζεται στην τύχη.
Σχεδόν τα δύο τρίτα των καλλιτεχνών που ερευνήσαμε είχαν ανησυχίες ότι οι γενιές τους με τεχνητή νοημοσύνη μπορεί να είναι παρόμοιες με τα έργα άλλων καλλιτεχνών και ότι η τεχνολογία δεν αντικατοπτρίζει την ταυτότητά τους – ή ακόμη και την αντικαθιστά εντελώς.
Το ζήτημα της ταυτότητας του καλλιτέχνη είναι κρίσιμο όταν πρόκειται για τη δημιουργία και την αναγνώριση της τέχνης. Τον 19ο αιώνα, όταν η φωτογραφία άρχισε να γίνεται δημοφιλής, υπήρξε
μια συζήτηση για το αν η φωτογραφία ήταν μια μορφή τέχνης
. Κατέληξε σε μια δικαστική υπόθεση στη Γαλλία το 1861 για να αποφασιστεί εάν η φωτογραφία θα μπορούσε να κατοχυρωθεί με πνευματικά δικαιώματα ως μορφή τέχνης. Η απόφαση εξαρτιόταν από το αν η μοναδική ταυτότητα ενός καλλιτέχνη μπορούσε να εκφραστεί μέσω φωτογραφιών.
Τα ίδια ερωτήματα προκύπτουν όταν εξετάζουμε συστήματα AI που διδάσκονται με τις υπάρχουσες εικόνες του Διαδικτύου.
Πριν από την εμφάνιση της προτροπής μετατροπής κειμένου σε εικόνα,
Η δημιουργία τέχνης με AI ήταν μια πιο περίπλοκη διαδικασία
: Οι καλλιτέχνες συνήθως εκπαίδευαν τα δικά τους μοντέλα AI με βάση τις δικές τους εικόνες. Αυτό τους επέτρεψε να χρησιμοποιούν τη δική τους δουλειά ως οπτικές αναφορές και να διατηρούν περισσότερο έλεγχο στα αποτελέσματα, τα οποία αντικατοπτρίζουν καλύτερα το μοναδικό τους στυλ.
Τα εργαλεία μετατροπής κειμένου σε εικόνα μπορεί να είναι χρήσιμα για ορισμένους δημιουργούς και απλούς καθημερινούς χρήστες που θέλουν να δημιουργήσουν γραφικά για μια παρουσίαση εργασίας ή μια ανάρτηση στα μέσα κοινωνικής δικτύωσης.
Αλλά όσον αφορά την τέχνη, δεν μπορώ να δω πώς το λογισμικό κειμένου σε εικόνα μπορεί να αντικατοπτρίζει επαρκώς τις αληθινές προθέσεις του καλλιτέχνη ή να αποτυπώνει την ομορφιά και τη συναισθηματική απήχηση ή τα έργα που αγγίζουν τους θεατές και τους κάνουν να ξαναδούν τον κόσμο.
Θέλετε να μάθετε περισσότερα για την τεχνητή νοημοσύνη, τα chatbots και το μέλλον της μηχανικής μάθησης; Δείτε την πλήρη κάλυψή μας για
τεχνητή νοημοσύνη
ή περιηγηθείτε στους οδηγούς μας
Οι καλύτερες δωρεάν γεννήτριες τέχνης AI
και
Όλα όσα γνωρίζουμε για το ChatGPT του OpenAI
.
Ahmed Elgammal
Καθηγητής Επιστήμης Υπολογιστών και Διευθυντής του Εργαστηρίου Τέχνης & AI,
Πανεπιστήμιο Rutgers
Αυτό το άρθρο αναδημοσιεύεται από
Η συζήτηση
με άδεια Creative Commons. Διαβάστε το
πρωτότυπο άρθρο
.


