Η Apple παρουσιάζει το νέο μοντέλο Τεχνητής Νοημοσύνης που επεξεργάζεται εικόνες βασιζόμενο σε κείμενο
Η Apple
δεν είναι
ένας από τους κορυφαίους παίκτες στο παιχνίδι τεχνητής νοημοσύνης
σήμερα
, αλλά το νέο
μοντέλο
ανοιχτού κώδικα τεχνητής νοημοσύνης της εταιρείας για επεξεργασία εικόνας δείχνει τι μπορεί να συνεισφέρει στον χώρο. Το μοντέλο ονομάζεται MLLM-Guided Image Editing (MGIE), το οποίο χρησιμοποιεί πολυτροπικά μοντέλα μεγάλων γλωσσών (MLLMs) για την ερμηνεία εντολών που βασίζονται σε κείμενο κατά τον χειρισμό εικόνων. Με άλλα λόγια, το εργαλείο έχει τη δυνατότητα να επεξεργάζεται φωτογραφίες με βάση το κείμενο που πληκτρολογεί ο χρήστης. Αν και δεν είναι το πρώτο εργαλείο που μπορεί να το κάνει, “οι ανθρώπινες οδηγίες είναι μερικές φορές πολύ σύντομες για να καταγράψουν και να ακολουθήσουν οι τρέχουσες μέθοδοι”.
χαρτί του έργου
(PDF) διαβάζει.
Η εταιρεία ανέπτυξε το MGIE με ερευνητές από το Πανεπιστήμιο της Καλιφόρνια στη Σάντα Μπάρμπαρα. Τα MLLM έχουν τη δύναμη να μετατρέπουν απλά ή διφορούμενα μηνύματα κειμένου σε πιο λεπτομερείς και σαφείς οδηγίες που μπορεί να ακολουθήσει ο ίδιος ο επεξεργαστής φωτογραφιών. Για παράδειγμα, εάν ένας χρήστης θέλει να επεξεργαστεί μια φωτογραφία μιας πίτσας πεπερόνι για να την “κάνει πιο υγιεινή”, οι MLLM μπορούν να την ερμηνεύσουν ως “προσθήκη φυτικών επικαλύψεων” και να επεξεργαστούν τη φωτογραφία ως τέτοια.
μήλο
Εκτός από την αλλαγή της πραγματοποίησης σημαντικών αλλαγών στις εικόνες, το MGIE μπορεί επίσης να περικόψει, να αλλάξει μέγεθος και να περιστρέψει φωτογραφίες, καθώς και να βελτιώσει τη φωτεινότητα, την αντίθεση και την ισορροπία χρωμάτων, όλα μέσω μηνυμάτων κειμένου. Μπορεί επίσης να επεξεργαστεί συγκεκριμένες περιοχές μιας φωτογραφίας και μπορεί, για παράδειγμα, να τροποποιήσει τα μαλλιά, τα
μάτια
και τα
ρούχα
ενός ατόμου σε αυτήν ή να αφαιρέσει στοιχεία στο φόντο.
Οπως και
VentureBeat
σημειώσεις, η Apple κυκλοφόρησε το μοντέλο μέσω
GitHub
αλλά οι ενδιαφερόμενοι μπορούν επίσης να δοκιμάσουν α
διαδήλωση
που αυτή τη στιγμή φιλοξενείται στο Hugging Face Spaces. Η Apple δεν έχει ακόμη πει εάν σκοπεύει να χρησιμοποιήσει όσα μαθαίνει από αυτό το έργο σε ένα εργαλείο ή μια δυνατότητα που μπορεί να ενσωματώσει σε οποιοδήποτε από τα προϊόντα της.
VIA:
engadget.com

