Η Apple παρουσίασε νέο μοντέλο επεξεργασίας εικόνας με τεχνητή νοημοσύνη ανοιχτού κώδικα
Η Apple ασχολείται με την επεξ
εργασία
εικόνας με
τεχνητή νοημοσύνη
με ένα μοντέλο πολυτροπικής τεχνητής νοημοσύνης ανοιχτού κώδικα.
Νωρίτερα αυτή την εβδομάδα, ερευνητές από την Apple και το Πανεπιστήμιο της Καλιφόρνια στη Σάντα Μπάρμπαρα
απελευθερώθηκε
Επεξεργασία εικόνας καθοδηγούμενη από MLLM ή “MGIE;” ένα πολυτροπικό μοντέλο AI που μπορεί να επεξεργάζεται εικόνες όπως το Photoshop, με βάση απλές εντολές κειμένου.
Στο μέτωπο ανάπτυξης της τεχνητής νοημοσύνης, η Apple είναι χαρακτηρισ
τι
κά επιφυλακτική σχετικά με τα σχέδιά της. Ήταν επίσης μια από τις λίγες εταιρείες που δεν ανακοίνωσαν μεγάλα σχέδια τεχνητής νοημοσύνης στον απόηχο της περσινής διαφημιστικής εκστρατείας ChatGPT. Ωστόσο, η Apple φέρεται να έχει μια εσωτερική έκδοση ενός chatbot τύπου ChatGPT που ονομάζεται “Apple GPT” και ο Tim Cook είπε ότι η Apple θα κάνει μερικές σημαντικές ανακοινώσεις AI αργότερα φέτος.
ΔΕΙΤΕ ΕΠΙΣΗΣ:
Ο Tim Cook λέει ότι η μεγάλη ανακοίνωση της Apple AI έρχεται αργότερα φέτος
Το αν αυτή η ανακοίνωση περιλαμβάνει ένα εργαλείο επεξεργασίας εικόνας AI μένει να φανεί, αλλά με βάση αυτό το μοντέλο, η Apple σίγουρα κάνει κάποια έρευνα και ανάπτυξη.
Ενώ υπάρχουν ήδη εργαλεία επεξεργασίας εικόνων με τεχνητή νοημοσύνη εκεί έξω, “οι ανθρώπινες οδηγίες είναι μερικές φορές πολύ σύντομες για να καταγράψουν και να ακολουθήσουν οι τρέχουσες μέθοδοι”, ανέφερε η ερευνητική εργασία. Αυτό συχνά οδηγεί σε αθώα ή αποτυχημένα αποτελέσματα. Το MGIE είναι μια διαφορετική προσέγγιση που χρησιμοποιεί MLLM, ή πολυτροπικά μεγάλα γλωσσικά μοντέλα, για να κατανοήσει τις προτροπές κειμένου ή τις “εκφραστικές οδηγίες”, καθώς και δεδομένα εκπαίδευσης εικόνων. Ουσιαστικά, η εκμάθηση από τα MLLM βοηθά το MGIE να κατανοεί εντολές φυσικής γλώσσας χωρίς να χρειάζεται βαριά περιγραφή.
Σε παραδείγματα από την έρευνα, το MGIE μπορεί να πάρει μια εικόνα εισόδου μιας πίτσας πεπερόνι και χρησιμοποιώντας την προτροπή, “κάντε αυτό πιο υγιεινό” να συμπεράνει ότι “αυτό” αναφέρεται στην πίτσα πεπερόνι και το “πιο υγιεινό” μπορεί να ερμηνευτεί ως προσθήκη λαχανικών. Έτσι, η εικόνα εξόδου είναι μια πίτσα πεπερόνι με μερικά πράσινα λαχανικά διάσπαρτα από πάνω.
Σε ένα άλλο παράδειγμα που συγκρίνει το MGIE με άλλα μοντέλα, η εικόνα εισόδου είναι μια δασώδης ακτογραμμή και ένα ήρεμο σώμα νερού. Με την προτροπή “προσθέστε κεραυνό και κάντε το νερό να αντανακλά τον κεραυνό”, άλλα μοντέλα παραλείπουν την αντανάκλαση του κεραυνού, αλλά το MGIE την καταγράφει με επιτυχία.
Το MGIE είναι διαθέσιμο ως μοντέλο ανοιχτού κώδικα
GitHub
και ως έκδοση επίδειξης που φιλοξενείται στο
Αγκαλιασμένο πρόσωπο
.
Θέματα
Τεχνητή
Νοημοσύνη
της Apple
VIA:
mashable.com

