Η Unstructured, η οποία προσφέρει εργαλεία για την προετοιμασία εταιρικών δεδομένων για LLMs, συγκεντρώνει $25 εκατομμύρια
Τα μεγάλα γλωσσικά μοντέλα (LLM) όπως το
GPT-4
του
OpenAI
είναι τα δομικά στοιχεία για έναν αυξανόμενο αριθμό εφαρμογών τεχνητής νοημοσύνης. Ωστόσο, ορισμένες επιχειρήσεις ήταν απρόθυμες να τις υιοθετήσουν, λόγω της αδυναμίας τους να έχουν πρόσβαση σε δεδομένα πρώτου κατασκευαστή και ιδιόκτητα.
Δεν είναι ένα εύκολο πρόβλημα να λυθεί, απαραίτητα — λαμβάνοντας υπόψη ότι αυτού του είδους τα δεδομένα τείνουν να βρίσκονται πίσω από τείχη προστασίας και έρχονται σε μορφές που δεν μπορούν να αξιοποιηθούν από LLM. Αλλά μια σχετικά νέα
startup
,
Unstructured.io
προσπαθεί να αφαιρέσει τα εμπόδια με μια πλατφόρμα που εξάγει και σταδιοποιεί τα εταιρικά δεδομένα με τρόπο που οι LLM μπορούν να κατανοήσουν και να αξιοποιήσουν.
Οι Brian Raymond, Matt Robinson και Crag Wolfe συνίδρυσαν την Unstructured το 2022 μετά από συνεργασία στην Primer AI, η οποία επικεντρώθηκε στη δημιουργία και ανάπτυξη λύσεων επεξεργασίας φυσικής γλώσσας (NLP) για επιχειρηματικούς πελάτες.
«Όταν βρισκόμαστε στο Primer, επανειλημμένα, συναντήσαμε ένα σημείο συμφόρησης κατά την απορρόφηση και προεπεξεργασία ακατέργαστων αρχείων πελατών που περιείχαν δεδομένα NLP (π.χ. PDF, email, PPTX, XML, κ.λπ.) και τα μετασχηματίζονταν σε ένα καθαρό, επιμελημένο αρχείο που είναι έτοιμο για ένα μοντέλο ή αγωγός μηχανικής μάθησης», είπε ο Raymond, ο οποίος υπηρετεί ως Διευθύνων Σύμβουλος της Unstructured, στο TechCrunch σε μια συνέντευξη μέσω email. «Καμία από τις εταιρείες ενοποίησης δεδομένων ή έξυπνων εταιρειών επεξεργασίας εγγράφων δεν βοήθησε στην επίλυση αυτού του προβλήματος, έτσι αποφασίσαμε να δημιουργήσουμε μια εταιρεία και να το αντιμετωπίσουμε κατά μέτωπο».
Πράγματι, η επεξεργασία και η προετοιμασία δεδομένων τείνει να είναι ένα χρονοβόρο βήμα οποιασδήποτε ροής εργασιών ανάπτυξης AI. Σύμφωνα με έναν
επισκόπηση
, οι επιστήμονες δεδομένων ξοδεύουν σχεδόν το 80% του χρόνου τους στην προετοιμασία και τη διαχείριση δεδομένων για ανάλυση. Ως αποτέλεσμα, οι περισσότερες από τις εταιρείες δεδομένων
παράγω
— περίπου τα δύο τρίτα — μένει αχρησιμοποίητο, ανά άλλο
ψηφοφορία
.
«Οι οργανισμοί παράγουν τεράστιες ποσότητες μη δομημένων δεδομένων σε καθημερινή βάση, τα οποία όταν συνδυάζονται με LLM μπορούν να αυξήσουν την παραγωγικότητα. Το πρόβλημα είναι ότι αυτά τα δεδομένα είναι διάσπαρτα», συνέχισε ο Raymond. «Το βρώμικο μυστικό στην κοινότητα του NLP είναι ότι οι επιστήμονες δεδομένων σήμερα πρέπει ακόμα να κατασκευάσουν χειροκίνητα χειροκίνητα χειροτεχνικούς, εφάπαξ συνδέσμους δεδομένων και αγωγούς προεπεξεργασίας. Μη δομημένο [delivers] μια ολοκληρωμένη λύση για τη σύνδεση, τη μετατροπή και τη σταδιοποίηση δεδομένων φυσικής γλώσσας για LLMs.”
Το Unstructured παρέχει έναν αριθμό εργαλείων για τον καθαρισμό και τη μετατροπή εταιρικών δεδομένων για απορρόφηση LLM, συμπεριλαμβανομένων εργαλείων που αφαιρούν διαφημίσεις και άλλα ανεπιθύμητα αντικείμενα από ιστοσελίδες, συνενώνουν κείμενο, εκτελούν οπτική αναγνώριση χαρακτήρων σε σαρωμένες σελίδες και πολλά άλλα. Η εταιρεία αναπτύσσει αγωγούς επεξεργασίας για συγκεκριμένους τύπους αρχείων PDF. Έγγραφα HTML και Word, συμπεριλαμβανομένων των αρχείων SEC. και — από όλα τα πράγματα — εκθέσεις αξιολόγησης αξιωματικού του στρατού των ΗΠΑ.
Για τον χειρισμό εγγράφων, η Unstructured εκπαίδευσε το δικό της μοντέλο NLP «μετασχηματισμού αρχείων» από την αρχή και συγκέντρωσε μια συλλογή άλλων μοντέλων για να εξάγει κείμενο και περίπου 20 διακριτά στοιχεία (π.χ. τίτλους, κεφαλίδες και υποσέλιδα) από ακατέργαστα αρχεία. Διάφοροι σύνδεσμοι — περίπου 15 συνολικά — αντλούν έγγραφα από υπάρχουσες πηγές δεδομένων, όπως λογισμικό διαχείρισης πελατειακών σχέσεων.
«Πίσω από τις σκηνές, χρησιμοποιούμε μια ποικιλία διαφορετικών τεχνολογιών για να αφαιρέσουμε την πολυπλοκότητα», είπε ο Raymond. «Για παράδειγμα, για παλιά PDF και εικόνες, χρησιμοποιούμε μοντέλα υπολογιστικής όρασης. Και για άλλους τύπους αρχείων, χρησιμοποιούμε έξυπνους συνδυασμούς μοντέλων NLP, σεναρίων Python και κανονικών εκφράσεων.”
Το Downstream, Unstructured ενσωματώνεται με παρόχους όπως το LangChain, ένα πλαίσιο για τη δημιουργία εφαρμογών LLM,
και διανυσματικές βάσεις δεδομένων όπως το Weaviate και το Atlas Vector Search του MongoDB.
Προηγουμένως, το μοναδικό προϊόν της Unstructured ήταν μια σουίτα ανοιχτού κώδικα αυτών των εργαλείων επεξεργασίας δεδομένων. Ο Raymond ισχυρίζεται ότι έχει ληφθεί περίπου 700.000 φορές και έχει χρησιμοποιηθεί από περισσότερες από 100 εταιρείες. Αλλά για να καλύψει το κόστος ανάπτυξης – και να ηρεμήσει τους επενδυτές της, αναμφίβολα – η εταιρεία λανσάρει ένα εμπορικό API που θα μεταμορφώνει δεδομένα σε 25 διαφορετικές μορφές αρχείων, συμπεριλαμβανομένων των PowerPoints και JPG.
«Συνεργαζόμαστε με κρατικούς φορείς και έχουμε αρκετά εκατομμύρια έσοδα σε πολύ σύντομο χρονικό διάστημα. . . . Δεδομένου ότι η εστίασή μας είναι στην τεχνητή νοημοσύνη, επικεντρωνόμαστε σε έναν τομέα της αγοράς που δεν επηρεάζεται από την ευρύτερη οικονομική επιβράδυνση», δήλωσε ο Raymond.
Η Unstructured έχει ασυνήθιστα στενούς δεσμούς με αμυντικές υπηρεσίες, ίσως προϊόν του παρελθόντος του Raymond. Πριν από το Primer, ήταν ενεργό μέλος της κοινότητας πληροφοριών των ΗΠΑ, υπηρετώντας στη Μέση Ανατολή και στη συνέχεια στον Λευκό Οίκο κατά τη διάρκεια της κυβέρνησης Ομπάμα πριν από μια θητεία στη CIA.
Στην Unstructured ανατέθηκαν συμβάσεις μικρών επιχειρήσεων από την Πολεμική Αεροπορία των ΗΠΑ και τη Διαστημική Δύναμη των ΗΠΑ και συνεργάστηκε με τη Διοίκηση Ειδικών Επιχειρήσεων των ΗΠΑ (SOCOM) για την ανάπτυξη ενός LLM «σε συνδυασμό με δεδομένα σχετικά με την αποστολή». Επιπλέον, το συμβούλιο της Unstructured περιλαμβάνει τον Michael Groen, πρώην στρατηγό και διευθυντή του Κοινού Κέντρου Τεχνητής Νοημοσύνης του Πενταγώνου, και τον Ryan Lewis, ο οποίος προηγουμένως ηγήθηκε της Μονάδας Αμυντικής Καινοτομίας του Υπουργείου Άμυνας.
Η οπτική γωνία άμυνας – μια αξιόπιστη πρώιμη πηγή εσόδων – μπορεί να ήταν ο αποφασιστικός παράγοντας στην πρόσφατη χρηματοδότηση της Unstructured. Σήμερα, η εταιρεία ανακοίνωσε ότι συγκέντρωσε 25 εκατομμύρια δολάρια σε μια σειρά χρηματοδότησης για τη σειρά Α και προηγουμένως άγνωστη. Ο Madrona ηγήθηκε της Series A με τη συμμετοχή της Bain Capital Ventures, η οποία ηγήθηκε του πρώτου, και των M12 Ventures, Mango Capital, MongoDB Ventures και Shield Capital, καθώς και αρκετών επενδυτών αγγέλων.


