Κάθε Κυριακή, ο NPR Host Will Shortz, ο γκουρού σταυρόλεξων της New York Times, παίρνει στο Quiz χιλιάδες ακροατές σε ένα μακροχρόνιο τμήμα που ονομάζεται Κυριακή παζλ. Ενώ γράφτηκε για να είναι επίλυση χωρίς πολύ Πολύ προγνωστική, οι brainteasers είναι συνήθως προκλητικοί ακόμη και για εξειδικευμένους διαγωνιζόμενους.

Αυτός είναι ο λόγος για τον οποίο ορισμένοι ειδικοί πιστεύουν ότι είναι ένας πολλά υποσχόμενος τρόπος για να δοκιμάσουν τα όρια των ικανοτήτων επίλυσης προβλημάτων του AI.

Σε μια νέα μελέτη, μια ομάδα ερευνητών που προέρχονται από το Wellesley College, το Oberlin College, το Πανεπιστήμιο του Τέξας στο Austin, το Northeastern University και το Startup Cursor δημιούργησε ένα σημείο αναφοράς AI χρησιμοποιώντας αινίγματα από επεισόδια παζλ της Κυριακής. Η ομάδα λέει ότι η δοκιμή τους αποκαλύπτει εκπληκτικές γνώσεις, όπως αυτά τα λεγόμενα μοντέλα συλλογισμού-Openai’s O1, μεταξύ άλλων-μερικές φορές “παραιτηθεί” και παρέχει απαντήσεις που γνωρίζουν ότι δεν είναι σωστές.

“Θέλαμε να αναπτύξουμε ένα σημείο αναφοράς με προβλήματα που οι άνθρωποι μπορούν να καταλάβουν μόνο με γενικές γνώσεις”, δήλωσε ο Arjun Guha, προπτυχιακός φοιτητής πληροφορικής στο Northeastern και ένας από τους συν-συγγραφείς της μελέτης, στο TechCrunch.

Η βιομηχανία AI βρίσκεται σε ένα κομμάτι από ένα quandary συγκριτικής αξιολόγησης αυτή τη στιγμή. Οι περισσότερες από τις δοκιμές που χρησιμοποιούνται συνήθως για την αξιολόγηση του ανιχνευτή μοντέλων AI για δεξιότητες, όπως η ικανότητα σε μαθηματικά και επιστημονικά ερωτήματα σε επίπεδο διδακτορικού επιπέδου, που δεν σχετίζονται με τον μέσο χρήστη. Εν τω μεταξύ, πολλά σημεία αναφοράς – ακόμη και τα σημεία αναφοράς που κυκλοφόρησαν σχετικά πρόσφατα – πλησιάζουν γρήγορα στο σημείο κορεσμού.

Τα πλεονεκτήματα ενός δημόσιου παιχνιδιού ραδιοφωνικού κουίζ όπως το παζλ της Κυριακής είναι ότι δεν δοκιμάζει την εσωτερική γνώση και οι προκλήσεις διατυπώνονται έτσι ώστε τα μοντέλα να μην μπορούν να αντλήσουν από τη μνήμη “Rote” για να τα λύσουν, εξήγησε ο Guha.

“Νομίζω ότι αυτό που κάνει αυτά τα προβλήματα σκληρά είναι ότι είναι πραγματικά δύσκολο να σημειωθεί ουσιαστική πρόοδος σε ένα πρόβλημα μέχρι να το λύσετε – αυτό είναι που όλα κάνουν κλικ μαζί ταυτόχρονα”, δήλωσε ο Guha. “Αυτό απαιτεί ένα συνδυασμό διορατικότητας και μια διαδικασία εξάλειψης.”

Κανένα σημείο αναφοράς δεν είναι τέλειο, φυσικά. Το παζλ της Κυριακής είναι αμερικανικό και μόνο αγγλικά. Και επειδή τα κουίζ είναι διαθέσιμα στο κοινό, είναι πιθανό ότι τα μοντέλα που εκπαιδεύονται πάνω τους και μπορούν να “εξαπατήσουν” κατά μία έννοια, αν και ο Guha λέει ότι δεν έχει δει απόδειξη αυτού.

“Οι νέες ερωτήσεις κυκλοφορούν κάθε εβδομάδα και μπορούμε να αναμένουμε ότι οι τελευταίες ερωτήσεις είναι πραγματικά αόρατες”, πρόσθεσε. “Σκοπεύουμε να διατηρήσουμε το σημείο αναφοράς και να παρακολουθούμε πώς η απόδοση του μοντέλου αλλάζει με την πάροδο του χρόνου.”

Σχετικά με το σημείο αναφοράς των ερευνητών, το οποίο αποτελείται από περίπου 600 αινίγματα παζλ της Κυριακής, τα μοντέλα συλλογισμού όπως το O1 και το R1 του Deepseek ξεπερνούν τα υπόλοιπα. Τα μοντέλα συλλογισμού ελέγχθηκαν διεξοδικά, τα ίδια τα αποτελέσματα πριν δώσουν αποτελέσματα, γεγονός που τους βοηθά να αποφύγουν μερικές από τις παγίδες που κανονικά ταξιδεύουν στα μοντέλα AI. Το συμβιβασμό είναι ότι τα μοντέλα συλλογισμού χρειάζονται λίγο περισσότερο χρόνο για να φτάσουν σε λύσεις-συνήθως δευτερόλεπτα έως λεπτά περισσότερο.

Τουλάχιστον ένα μοντέλο, το R1 του Deepseek, δίνει λύσεις που ξέρει να είναι λάθος για μερικές από τις ερωτήσεις της Κυριακής. Το R1 θα δηλώσει κατά λέξη ότι “παραιτηθώ από”, ακολουθούμενη από μια λανθασμένη απάντηση που επιλέγεται φαινομενικά τυχαία – συμπεριφορά που ο άνθρωπος μπορεί σίγουρα να σχετίζεται.

Τα μοντέλα καθιστούν άλλες παράξενες επιλογές, όπως και μια λανθασμένη απάντηση μόνο για να την αποσύρονται αμέσως, να προσπαθήσουν να πειράξουν ένα καλύτερο και να αποτύχουν ξανά. Επίσης, κολλάνε για πάντα “σκέψη” για πάντα και δίνουν ανόητες εξηγήσεις για απαντήσεις ή φτάνουν σε μια σωστή απάντηση αμέσως, αλλά στη συνέχεια συνεχίζουν να εξετάζουν εναλλακτικές απαντήσεις χωρίς προφανή λόγο.

“Σε σκληρά προβλήματα, ο R1 λέει κυριολεκτικά ότι παίρνει« απογοητευμένο », είπε ο Guha. “Ήταν αστείο να δούμε πώς ένα μοντέλο μιμείται τι μπορεί να πει ένας άνθρωπος. Παραμένει να δούμε πώς η «απογοήτευση» στη συλλογιστική μπορεί να επηρεάσει την ποιότητα των αποτελεσμάτων του μοντέλου ».

Το R1 παίρνει “απογοητευμένο” σε μια ερώτηση στο σύνολο Sunday Puzzle Challenge.Πιστώσεις εικόνας:Guha et αϊ.

Το σημερινό μοντέλο καλύτερης απόδοσης στο σημείο αναφοράς είναι το O1 με βαθμολογία 59%, ακολουθούμενη από το πρόσφατα κυκλοφόρησε O3-Mini που έχει οριστεί σε υψηλή “σκέψη” (47%). (R1 σημείωσε 35%.) Ως επόμενο βήμα, οι ερευνητές σχεδιάζουν να διευρύνουν τις δοκιμές τους σε πρόσθετα μοντέλα συλλογισμού, τα οποία ελπίζουν ότι θα βοηθήσουν στον εντοπισμό περιοχών όπου αυτά τα μοντέλα θα μπορούσαν να ενισχυθούν.

Δείκτης αναφοράς NPR
Τα αποτελέσματα των μοντέλων που εξέτασε η ομάδα στο σημείο αναφοράς τους.Πιστώσεις εικόνας:Guha et αϊ.

“Δεν χρειάζεστε διδακτορικό για να είστε καλοί στη συλλογιστική, οπότε θα πρέπει να είναι δυνατό να σχεδιάσετε σημεία αναφοράς συλλογισμού που δεν απαιτούν γνώση σε επίπεδο διδακτορικού επιπέδου”, δήλωσε ο Guha. “Ένα σημείο αναφοράς με ευρύτερη πρόσβαση επιτρέπει σε ένα ευρύτερο σύνολο ερευνητών να κατανοούν και να αναλύουν τα αποτελέσματα, τα οποία με τη σειρά τους μπορεί να οδηγήσουν σε καλύτερες λύσεις στο μέλλον. Επιπλέον, καθώς τα μοντέλα της τελευταίας τεχνολογίας αναπτύσσονται όλο και περισσότερο σε ρυθμίσεις που επηρεάζουν όλους, πιστεύουμε ότι όλοι θα πρέπει να είναι σε θέση να Intuit τι είναι αυτά τα μοντέλα-και δεν είναι-ικανά “.