Οι ερευνητές της AI στο Στάνφορντ και το Πανεπιστήμιο της Ουάσινγκτον κατάφεραν να εκπαιδεύσουν ένα μοντέλο AI “συλλογισμού” για κάτω από $ 50 σε cloud compute credits, σύμφωνα με ένα νέο ερευνητικό έγγραφο που κυκλοφόρησε την περασμένη Παρασκευή.
Το μοντέλο που είναι γνωστό ως S1 εκτελεί παρόμοια με τα μοντέλα συλλογιστικής αιχμής, όπως το R1 του Openai και το Deepseek’s, σε δοκιμές που μέτρησαν τις ικανότητες μαθηματικών και κωδικοποίησης. Το μοντέλο S1 είναι διαθέσιμο στο GitHub, μαζί με τα δεδομένα και τον κώδικα που χρησιμοποιούνται για την εκπαίδευση.
Η ομάδα πίσω από το S1 δήλωσε ότι ξεκίνησαν με ένα μοντέλο βάσης off-the-ράφι, και στη συνέχεια τελειοποίησαν μέσω της απόσταξης, μια διαδικασία για την εξαγωγή των δυνατοτήτων “λογικής” από ένα άλλο μοντέλο AI με την κατάρτιση των απαντήσεων της.
Οι ερευνητές δήλωσαν ότι το S1 αποστάζεται από ένα από τα μοντέλα συλλογισμού της Google, το Gemini 2.0 Flash Thinking Experimental. Η απόσταξη είναι η ίδια προσέγγιση που οι ερευνητές του Berkeley χρησιμοποίησαν για να δημιουργήσουν ένα μοντέλο λογικής AI για περίπου $ 450 τον περασμένο μήνα.
Για μερικούς, η ιδέα ότι μερικοί ερευνητές χωρίς εκατομμύρια δολάρια πίσω από αυτά μπορούν ακόμα να καινοτομούν στον χώρο του AI είναι συναρπαστικό. Αλλά το S1 εγείρει πραγματικά ερωτήματα σχετικά με την εμπορευματοποίηση μοντέλων AI.
Πού είναι η τάφρο εάν κάποιος μπορεί να αναπαράγει στενά ένα μοντέλο πολλών εκατομμυρίων δολαρίων με σχετική αλλαγή τσέπης;
Δεν αποτελεί έκπληξη το γεγονός ότι τα μεγάλα εργαστήρια AI δεν είναι χαρούμενα. Η OpenAI κατηγόρησε την Deepseek ότι δεν συνέβαλε σε κακή συγκομιδή δεδομένων από το API του για τους σκοπούς της απόσταξης μοντέλου.
Οι ερευνητές πίσω από το S1 προσπαθούσαν να βρουν την απλούστερη προσέγγιση για να επιτύχουν ισχυρές επιδόσεις συλλογιστικής και “κλιμάκωση χρόνου δοκιμής”, ή επιτρέποντας σε ένα μοντέλο AI να σκεφτεί περισσότερο πριν απαντήσει σε μια ερώτηση. Αυτές ήταν μερικές από τις ανακαλύψεις στο O1 του OpenAi, το οποίο η Deepseek και άλλα εργαστήρια AI προσπάθησαν να αναπαραχθούν μέσω διαφόρων τεχνικών.
Το χαρτί S1 υποδηλώνει ότι τα μοντέλα συλλογισμού μπορούν να αποσταχθούν με ένα σχετικά μικρό σύνολο δεδομένων χρησιμοποιώντας μια διαδικασία που ονομάζεται εποπτευόμενη τελειοποίηση (SFT), στην οποία ένα μοντέλο AI έχει ρητά οδηγίες να μιμείται ορισμένες συμπεριφορές σε ένα σύνολο δεδομένων.
Το SFT τείνει να είναι φθηνότερο από τη μέθοδο μάθησης ενίσχυσης μεγάλης κλίμακας που χρησιμοποίησε η Deepseek για να εκπαιδεύσει τον ανταγωνιστή της στο μοντέλο O1 της OpenAI, R1.
Η Google προσφέρει δωρεάν πρόσβαση στο Gemini 2.0 Flash Thinking Experimental, αν και με ημερήσια όρια επιτοκίων, μέσω της πλατφόρμας στούντιο Google AI.
Οι όροι της Google απαγορεύουν την αντιστροφή των μοντέλων της για την ανάπτυξη υπηρεσιών που ανταγωνίζονται με τις προσφορές της AI της εταιρείας. Έχουμε φτάσει στο Google για σχόλια.
Το S1 βασίζεται σε ένα μικρό μοντέλο AI από το κινεζικό AI Lab Qwen που ανήκει στο Alibaba, το οποίο είναι διαθέσιμο για λήψη δωρεάν. Για να εκπαιδεύσει το S1, οι ερευνητές δημιούργησαν ένα σύνολο δεδομένων με μόλις 1.000 προσεκτικά επιμελημένες ερωτήσεις, σε συνδυασμό με απαντήσεις σε αυτές τις ερωτήσεις καθώς και τη διαδικασία “σκέψης” πίσω από κάθε απάντηση από το Google Gemini 2.0 Flash Thinking Experimental.
Μετά την κατάρτιση S1, η οποία χρειάστηκε λιγότερο από 30 λεπτά χρησιμοποιώντας 16 GPU NVIDIA H100, η S1 πέτυχε ισχυρές επιδόσεις σε ορισμένα σημεία αναφοράς AI, σύμφωνα με τους ερευνητές. Ο Niklas Muennighoff, ερευνητής του Stanford που εργάστηκε στο έργο, δήλωσε στο TechCrunch ότι θα μπορούσε να νοικιάσει τον απαραίτητο υπολογισμό σήμερα για περίπου $ 20.
Οι ερευνητές χρησιμοποίησαν ένα κομψό τέχνασμα για να πάρουν το S1 για να ελέγξει το έργο του και να επεκτείνει τον χρόνο “σκέψης” του: του είπαν να περιμένει. Η προσθήκη της λέξης “περιμένετε” κατά τη διάρκεια της συλλογιστικής του S1 βοήθησε το μοντέλο να φτάσει σε ελαφρώς ακριβέστερες απαντήσεις, ανά χαρτί.
Το 2025, η Meta, η Google και η Microsoft σχεδιάζουν να επενδύσουν εκατοντάδες δισεκατομμύρια δολάρια στην υποδομή AI, η οποία θα προχωρήσει εν μέρει στην εκπαίδευση μοντέλων AI επόμενης γενιάς.
Αυτό το επίπεδο επενδύσεων μπορεί να είναι απαραίτητο για να ωθήσει το φάκελο της καινοτομίας AI. Η απόσταξη έχει αποδειχθεί ότι είναι μια καλή μέθοδος για τη φτηνή αναδημιουργία των δυνατοτήτων ενός μοντέλου AI, αλλά δεν δημιουργεί νέα μοντέλα AI πολύ καλύτερα από ό, τι είναι διαθέσιμο σήμερα.