Η Apple ανακοινώνει εργαλείο εικόνας βασισμένο σε τεχνητή νοημοσύνη που επιτρέπει περιγραφή επεξεργασιών



Ερευνητές της Apple

κυκλοφόρησε ένα νέο μοντέλο

που επιτρέπει στους χρήστες να περιγράφουν σε απλή

τι θέλουν να αλλάξουν σε μια φωτογραφία χωρίς να αγγίξουν ποτέ λογισμικό επεξεργασίας φωτογραφιών.

Το μοντέλο MGIE, πάνω στο οποίο η Apple εργάστηκε με το Πανεπιστήμιο της Καλιφόρνια, Σάντα Μπάρμπαρα, μπορεί να περικόψει, να αλλάξει μέγεθος, να αναποδογυρίσει και να προσθέσει φίλτρα σε εικόνες μέσω μηνυμάτων κειμένου.

Το MGIE, το οποίο σημαίνει MLLM-Guided Image Editing, μπορεί να εφαρμοστεί σε απλές και πιο σύνθετες εργασίες επεξεργασίας εικόνας, όπως η τροποποίηση συγκεκριμένων αντικειμένων σε μια φωτογραφία, ώστε να έχουν διαφορετικό σχήμα ή να είναι πιο φωτεινά. Το μοντέλο συνδυάζει δύο διαφορετικές χρήσεις μοντέλων πολυτροπικών γλωσσών. Αρχικά, μαθαίνει πώς να ερμηνεύει τις προτροπές χρήστη. Στη συνέχεια, «φαντάζεται» πώς θα έμοιαζε η επεξεργασία (για παράδειγμα, το να ζητάς πιο μπλε ουρανό σε μια φωτογραφία αυξάνει τη φωτεινότητα στο τμήμα του ουρανού μιας εικόνας).

Κατά την επεξεργασία μιας φωτογραφίας με το MGIE, οι χρήστες πρέπει απλώς να πληκτρολογήσουν τι θέλουν να αλλάξουν σχετικά με την εικόνα. Η εφημερίδα χρησιμοποίησε το παράδειγμα επεξεργασίας μιας εικόνας μιας πίτσας πεπερόνι. Πληκτρολογώντας την προτροπή “κάντε το πιο υγιεινό” προσθέτετε γαρνιτούρες λαχανικών. Μια φωτογραφία με τίγρεις στη Σαχάρα φαίνεται σκοτεινή, αλλά αφού είπε στο μοντέλο «να προσθέσει περισσότερη αντίθεση για να προσομοιώσει περισσότερο φως», η εικόνα φαίνεται πιο φωτεινή.


Στιγμιότυπο οθόνης του χαρτιού MGIE.


Εικόνα: Apple

«Αντί για σύντομη αλλά διφορούμενη καθοδήγηση, το MGIE αντλεί ρητή πρόθεση οπτικής επίγνωσης και οδηγεί σε λογική επεξεργασία εικόνας. Διεξάγουμε εκτενείς μελέτες από διάφορες πτυχές επεξεργασίας και αποδεικνύουμε ότι το MGIE βελτιώνει αποτελεσματικά την απόδοση διατηρώντας παράλληλα την ανταγωνιστική απόδοση. Πιστεύουμε επίσης ότι το πλαίσιο που καθοδηγείται από το MLLM μπορεί να συμβάλει στη μελλοντική έρευνα για το όραμα και τη γλώσσα», ανέφεραν οι

στο έγγραφο.

Η Apple έκανε το MGIE διαθέσιμο μέσω του

για λήψη, αλλά κυκλοφόρησε επίσης ένα web demo στο Hugging Face Spaces,

Αναφορές

VentureBeat



.

Η εταιρεία δεν είπε ποια είναι τα σχέδιά της για το μοντέλο πέρα ​​από έρευνα.

Ορισμένες

παραγωγής εικόνων, όπως το DALL-E 3 του OpenAI, μπορούν να εκτελούν απλές εργασίες επεξεργασίας φωτογραφιών σε εικόνες που δημιουργούν μέσω εισαγωγής κειμένου. Ο δημιουργός του Photoshop Adobe, στον οποίο απευθύνονται οι περισσότεροι για επεξεργασία εικόνας, έχει επίσης το δικό του μοντέλο επεξεργασίας AI. Το μοντέλο Firefly AI ενεργοποιεί το γενετικό γέμισμα, το οποίο προσθέτει δημιουργημένα φόντο στις

.


VIA:

theverge.com


Follow TechWar.gr on Google News


Leave A Reply



Cancel Reply

Your email address will not be published.