Τι είναι το Apple MGIE και πώς να το χρησιμοποιήσετε;
Ο τεχνολογικός γίγαντας αποκάλυψε το Apple MGIE, ένα πρωτοποριακό μοντέλο ανοιχτού κώδικα AI που επιτρέπει την επεξεργασία εικόνας μέσω οδηγιών φυσικής γλώσσας. Το MGIE, συντομογραφία του MLLM-Guided Image Editing, αξιοποιεί τη δύναμη των πολυτροπικών μοντέλων μεγάλων γλωσσών (MLLM) για την ερμηνεία των εντολών των χρηστών και την εκτέλεση χειρισμών σε επίπεδο pixel με αξιοσημείωτη ακρίβεια.
Το μοντέλο διαθέτει ένα ευρύ φάσμα δυνατοτήτων επεξεργασίας, συμπεριλαμβανομένης της τροποποίησης σε στυλ Photoshop, της παγκόσ
μι
ας βελτιστοποίησης φωτογραφιών και της τοπικής επεξεργασίας. Αυτό σημαίνει ότι οι χρήστες μπορούν να βελτιώσουν αβίαστα τις εικόνες τους με μια απλή εντολή κειμένου.
Η ανάπτυξη του MGIE είναι αποτέλεσμα μιας πρωτοποριακής συνεργασίας μεταξύ της Apple και μιας ομάδας ερευνητών από το Πανεπιστήμιο της Καλιφόρνια στη Σάντα Μπάρμπαρα. Το μοντέλο
παρουσιάστηκε σε ερευνητική εργασία
έγινε αποδεκτή στο διάσημο Διεθνές Συνέδριο για τις Εκπαιδευτικές Αναπαραστάσεις (ICLR) 2024, μια κορυφαία
πλατφόρμα
για την έρευνα της τεχνητής νοημοσύνης. Η εργασία παρουσιάζει την εντυπωσιακή αποτελεσ
ματ
ικότητα του MGIE στη βελτίωση των αυτόματων μετρήσεων και της ανθρώπινης αξιολόγησης, διατηρώντας παράλληλα την ανταγωνιστική αποδοτικότητα συμπερασμάτων.
Η Apple αποκάλυψε το Apple MGIE, ένα μοντέλο ανοιχτού κώδικα τεχνητής νοημοσύνης αιχμής για επεξεργασία εικόνας μέσω οδηγιών φυσικής γλώσσας
(
Πίστωση εικόνας
)
Τι είναι το Apple MGIE;
Το Apple MGIE, το οποίο σημαίνει Multimodal Guided Image Editing, είναι ένα σύστημα που αναπτύχθηκε από την Apple που χρησιμοποιεί μηχανική εκμάθηση για να επιτρέπει στους χρήστες να επεξεργάζονται εικόνες χρησιμοποιώντας οδηγίες φυσικής γλώσσας. Αυτό σημαίνει ότι αντί να χρειάζεται να χρησιμοποιούν πολύπλοκα εργαλεία επεξεργασίας ή μενού, οι χρήστες μπορούν απλώς να περιγράψουν τι θέλουν να κάνουν στην εικόνα και το MGIE θα κάνει αυτόματα τις αλλαγές.
Ακριβώς όπως και άλλα εργαλεία
παραγωγή
ς εικόνας AI όπως το Midjourney, το StableDiffusion και το DALL-E, το Apple MGIE γεφυρώνει το χάσμα μεταξύ της ανθρώπινης πρόθεσης και της χειραγώγησης εικόνας. Αξιοποιεί τη δύναμη της πολυτροπικής μάθησης, που σημαίνει ότι κατανοεί τόσο οπτικές πληροφορίες (την ίδια την εικόνα) όσο και πληροφορίες κειμένου (τις οδηγίες σας).

Apple MGIE
προσφέρει μια σειρά δυνατοτήτων επεξεργασίας, συμπεριλαμβανομένης της τροποποίησης σε στυλ Photoshop, της παγκόσμιας βελτιστοποίησης φωτογραφιών και της τοπικής επεξεργασίας
(
Πίστωση εικόνας
)
Πώς λειτουργεί το Apple MGIE;
Ένας χρήστης θα μπορούσε να πει “Κάντε τον ουρανό σε αυτήν την εικόνα πιο μπλε” ή “Αφαιρέστε το κόκκινο αυτοκίνητο από αυτήν τη φωτογραφία” και το MGIE θα μπορούσε να κατανοήσει και να εκτελέσει αυτές τις οδηγίες. Το MGIE είναι ακόμα υπό ανάπτυξη, αλλά έχει τη δυνατότητα να κάνει την επεξεργασία εικόνας πολύ πιο εύκολη και πιο προσιτή για όλους.
Η βασική ιδέα πίσω από τη ροή εργασίας Apple MGIE είναι η εξής:
-
Εισαγωγή των εντολών σας
: Περιγράφετε τις αλλαγές που επιθυμείτε σε απλά αγγλικά, όπως “Κάντε τα δέντρα σε αυτή τη φωτογραφία ψηλότερα” ή “Αλλάξτε το χρώμα του φορέματος σε μπλε” -
Κατανόηση της πρόθεσής σας
: Το προηγμένο μοντέλο γλώσσας της MGIE αποκρυπτογραφεί τις οδηγίες σας, κατανοώντας τα συγκεκριμένα
αντικείμενα
, τα χαρακτηριστικά και τις τροποποιήσεις που έχετε στο μυαλό σας -
Οπτική κατανόηση
: ταυτόχρονα, το MGIE αναλύει την εικόνα, εντοπίζοντας βασικά στοιχεία και τις σχέσεις τους -
Καθοδηγούμενη επεξεργασία
: Συνδυάζοντας τόσο γλωσσική όσο και οπτική κατανόηση, το MGIE χειρίζεται έξυπνα την εικόνα για να αντικατοπτρίζει με ακρίβεια τις εντολές σας. Δεν ακολουθεί απλώς τυφλά τις οδηγίες, αλλά μπορεί να ερμηνεύσει το πλαίσιο και να κάνει λογικές προσαρμογές

Το μοντέλο παρουσιάστηκε σε μια ερευνητική εργασία που έγινε αποδεκτή στο International Conference on Learning Representations (ICLR) 2024
(
Πίστωση εικόνας
)
Πώς να χρησιμοποιήσετε το MGIE
Η Apple MGIE αναδείχθηκε ως ένα
έργο ανοιχτού κώδικα στο GitHub
, προσφέροντας μια μοναδική προσέγγιση στην επεξεργασία εικόνας μέσω εντολών φυσικής γλώσσας. Αυτή η ανάπτυξη επιτρέπει στους χρήστες να εξερευνήσουν και να συνεισφέρουν άμεσα στο έργο.
Το έργο παρέχει πλήρη πρόσβαση στον πηγαίο κώδικα, τα δεδομένα εκπαίδευσης και τα προεκπαιδευμένα μοντέλα του στο GitHub. Αυτή η διαφάνεια δίνει τη δυνατότητα στους προγραμματιστές και τους ερευνητές να κατανοήσουν τις εσωτερικές λειτουργίες του και ενδεχομένως να συμβάλουν σε βελτιώσεις.
ΕΝΑ
Το demo notebook είναι επίσης διαθέσιμο στο GitHub
, καθοδηγώντας τους χρήστες σε διάφορες εργασίες επεξεργασίας χρησιμοποιώντας οδηγίες φυσικής γλώσσας. Αυτό χρησιμεύει ως πρακτική εισαγωγή στις δυνατότητες του MGIE.
Οι χρήστες μπορούν επίσης να πειραματιστούν με το MGIE μέσω μιας επίδειξης ιστού που φιλοξενείται στο Hugging Face Spaces. Αυτή η διαδικτυακή πλατφόρμα προσφέρει έναν γρήγορο και βολικό τρόπο για να δοκιμάσετε το σύστημα χωρίς τοπική ρύθμιση.
Το σύστημα καλωσορίζει τα σχόλια των χρηστών και επιτρέπει τη βελτίωση των επεξεργασιών ή την αίτηση διαφορετικών τροποποιήσεων. Αυτή η επαναληπτική προσέγγιση στοχεύει να διασφαλίσει ότι οι επεξεργασίες που δημιουργούνται ευθυγραμμίζονται με το καλλιτεχνικό όραμα του χρήστη.
Ενώ το open-source καθιστά το MGIE προσβάσιμο, είναι σημαντικό να θυμόμαστε ότι παραμένει υπό ανάπτυξη. Η συνεχής έρευνα και οι συνεισφορές των χρηστών θα διαμορφώσουν τις μελλοντικές του δυνατότητες και πιθανές εφαρμογές.
Πίστωση επιλεγμένης εικόνας
:
vecstock/Freepik
.
VIA:
DataConomy.com

