Το πιο ικανό μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα με οπτικές ικανότητες θα μπορούσε να δει περισσότερους προγραμματιστές, ερευνητές και νεοφυείς επιχειρήσεις να αναπτύσσουν πράκτορες τεχνητής νοημοσύνης που μπορούν να κάνουν χρήσιμες δουλειές στους υπολογιστές σας για εσάς.

Το Multimodal Open Language Model, ή Molmo, που κυκλοφόρησε σήμερα από το Allen Institute for AI (Ai2), μπορεί να ερμηνεύει εικόνες καθώς και να συνομιλεί μέσω μιας διεπαφής συνομιλίας. Αυτό σημαίνει ότι μπορεί να έχει νόημα από μια οθόνη υπολογιστή, βοηθώντας ενδεχομένως έναν πράκτορα AI να εκτελέσει εργασίες όπως η περιήγηση στον Ιστό, η πλοήγηση στους καταλόγους αρχείων και η σύνταξη εγγράφων.

«Με αυτήν την έκδοση, πολλοί περισσότεροι άνθρωποι μπορούν να αναπτύξουν ένα πολυτροπικό μοντέλο», λέει ο Ali Farhadi, Διευθύνων Σύμβουλος του Ai2, ενός ερευνητικού οργανισμού με έδρα το Σιάτλ της Ουάσιγκτον και επιστήμονας υπολογιστών στο Πανεπιστήμιο της Ουάσιγκτον. “Θα πρέπει να είναι ένας ενεργοποιητής για εφαρμογές επόμενης γενιάς.”

Οι λεγόμενοι πράκτορες AI διαφημίζονται ευρέως ως το επόμενο μεγάλο πράγμα στην τεχνητή νοημοσύνη, με το OpenAI, την Google και άλλους να αγωνίζονται για την ανάπτυξή τους. Οι πράκτορες έχουν γίνει τσιτάτο τον τελευταίο καιρό, αλλά το μεγάλο όραμα είναι η τεχνητή νοημοσύνη να υπερβαίνει κατά πολύ τη συνομιλία και να αναλαμβάνει αξιόπιστα πολύπλοκες και εξελιγμένες ενέργειες στους υπολογιστές όταν τους δίνεται εντολή. Αυτή η ικανότητα δεν έχει ακόμη υλοποιηθεί σε οποιαδήποτε κλίμακα.

Ορισμένα ισχυρά μοντέλα τεχνητής νοημοσύνης έχουν ήδη οπτικές ικανότητες, όπως το GPT-4 από το OpenAI, το Claude από το Anthropic και το Gemini από το Google DeepMind. Αυτά τα μοντέλα μπορούν να χρησιμοποιηθούν για την τροφοδοσία ορισμένων πειραματικών πρακτόρων τεχνητής νοημοσύνης, αλλά είναι κρυφά και προσβάσιμα μόνο μέσω μιας διεπαφής προγραμματισμού εφαρμογών επί πληρωμή ή API.

Η Meta κυκλοφόρησε μια οικογένεια μοντέλων τεχνητής νοημοσύνης που ονομάζεται Llama με άδεια που περιορίζει την εμπορική τους χρήση, αλλά δεν έχει ακόμη παράσχει στους προγραμματιστές μια πολυτροπική έκδοση. Η Meta αναμένεται να ανακοινώσει πολλά νέα προϊόντα, ίσως συμπεριλαμβανομένων των νέων μοντέλων Llama AI, στην εκδήλωση Connect σήμερα.

«Έχοντας ένα ανοιχτού κώδικα, πολυτροπικό μοντέλο σημαίνει ότι κάθε startup ή ερευνητής που έχει μια ιδέα μπορεί να προσπαθήσει να το κάνει», λέει ο Ofir Press, μεταδιδάκτορας στο Πανεπιστήμιο του Πρίνστον που εργάζεται σε πράκτορες AI.

Ο Press αναφέρει ότι το γεγονός ότι το Molmo είναι ανοιχτού κώδικα σημαίνει ότι οι προγραμματιστές θα μπορούν πιο εύκολα να ρυθμίσουν τους πράκτορες τους για συγκεκριμένες εργασίες, όπως η εργασία με υπολογιστικά φύλλα, παρέχοντας πρόσθετα δεδομένα εκπαίδευσης. Μοντέλα όπως το GPT-4 μπορούν να βελτιστοποιηθούν μόνο σε περιορισμένο βαθμό μέσω των API τους, ενώ ένα πλήρως ανοιχτό μοντέλο μπορεί να τροποποιηθεί εκτενώς. “Όταν έχετε ένα μοντέλο ανοιχτού κώδικα όπως αυτό, τότε έχετε πολλές περισσότερες επιλογές”, λέει ο Press.

Το Ai2 κυκλοφορεί πολλά μεγέθη Molmo σήμερα, συμπεριλαμβανομένου ενός μοντέλου 70 δισεκατομμυρίων παραμέτρων και ενός μοντέλου 1 δισεκατομμυρίου παραμέτρων που είναι αρκετά μικρό για να λειτουργεί σε φορητή συσκευή. Ο αριθμός παραμέτρων ενός μοντέλου αναφέρεται στον αριθμό των μονάδων που περιέχει για την αποθήκευση και τον χειρισμό δεδομένων και αντιστοιχεί χονδρικά στις δυνατότητές του.

Ο Ai2 λέει ότι το Molmo είναι εξίσου ικανό με σημαντικά μεγαλύτερα εμπορικά μοντέλα παρά το σχετικά μικρό του μέγεθος, επειδή εκπαιδεύτηκε προσεκτικά σε δεδομένα υψηλής ποιότητας. Το νέο μοντέλο είναι επίσης πλήρως ανοιχτού κώδικα καθώς, σε αντίθεση με το Llama της Meta, δεν υπάρχουν περιορισμοί στη χρήση του. Το Ai2 δημοσιεύει επίσης τα δεδομένα εκπαίδευσης που χρησιμοποιήθηκαν για τη δημιουργία του μοντέλου, παρέχοντας στους ερευνητές περισσότερες λεπτομέρειες για τη λειτουργία του.

Η κυκλοφορία ισχυρών μοντέλων δεν είναι χωρίς κίνδυνο. Τέτοια μοντέλα μπορούν πιο εύκολα να προσαρμοστούν για κακόβουλα άκρα. μπορεί κάποια μέρα, για παράδειγμα, να δούμε την εμφάνιση κακόβουλων πρακτόρων τεχνητής νοημοσύνης που έχουν σχεδιαστεί για να αυτοματοποιούν την παραβίαση συστημάτων υπολογιστών.

Ο Farhadi του Ai2 υποστηρίζει ότι η αποτελεσματικότητα και η φορητότητα του Molmo θα επιτρέψει στους προγραμματιστές να δημιουργήσουν πιο ισχυρούς πράκτορες λογισμικού που τρέχουν εγγενώς σε smartphone και άλλες φορητές συσκευές. «Το μοντέλο των δισεκατομμυρίων παραμέτρων αποδίδει τώρα στο επίπεδο ή στο πρωτάθλημα μοντέλων που είναι τουλάχιστον 10 φορές μεγαλύτερα», λέει.

Ωστόσο, η δημιουργία χρήσιμων πρακτόρων τεχνητής νοημοσύνης μπορεί να εξαρτάται από περισσότερα από απλά πιο αποτελεσματικά πολυτροπικά μοντέλα. Μια βασική πρόκληση είναι να κάνετε τα μοντέλα να λειτουργούν πιο αξιόπιστα. Αυτό μπορεί κάλλιστα να απαιτήσει περαιτέρω ανακαλύψεις στις συλλογιστικές ικανότητες της τεχνητής νοημοσύνης – κάτι που το OpenAI επιδίωξε να αντιμετωπίσει με το πιο πρόσφατο μοντέλο του o1, το οποίο επιδεικνύει βήμα προς βήμα δεξιότητες συλλογισμού. Το επόμενο βήμα μπορεί κάλλιστα να είναι να δώσουμε στα πολυτροπικά μοντέλα τέτοιες συλλογιστικές ικανότητες.

Προς το παρόν, η κυκλοφορία του Molmo σημαίνει ότι οι πράκτορες τεχνητής νοημοσύνης είναι πιο κοντά από ποτέ — και σύντομα θα μπορούσαν να είναι χρήσιμοι ακόμη και εκτός των γίγαντων που κυβερνούν τον κόσμο της τεχνητής νοημοσύνης.