Ένας ερευνητής που συνδέεται με την εκκίνηση του Elon Musk XAI βρήκε έναν νέο τρόπο να μετρήσει και να χειριστεί τις εδραιωμένες προτιμήσεις και τις αξίες που εκφράζονται από μοντέλα τεχνητής νοημοσύνης – συμπεριλαμβανομένων των πολιτικών τους απόψεων.

Το έργο καθοδηγήθηκε από τον Dan Hendrycks, διευθυντή του μη κερδοσκοπικού Κέντρου Ασφάλειας του AI και σύμβουλο του XAI. Προτείνει ότι η τεχνική θα μπορούσε να χρησιμοποιηθεί για να κάνει τα δημοφιλή μοντέλα AI να αντικατοπτρίζουν καλύτερα τη βούληση του εκλογικού σώματος. “Ίσως στο μέλλον, (ένα μοντέλο) θα μπορούσε να ευθυγραμμιστεί με τον συγκεκριμένο χρήστη”, δήλωσε ο Hendrycks στο Wired. Εν τω μεταξύ, λέει, μια καλή προεπιλογή θα χρησιμοποιεί τα αποτελέσματα των εκλογών για να κατευθύνει τις απόψεις των μοντέλων AI. Δεν λέει ότι ένα μοντέλο θα πρέπει να είναι “Trump σε όλη τη διαδρομή”, αλλά υποστηρίζει ότι θα πρέπει να είναι προκατειλημμένο προς το Trump ελαφρώς, “επειδή κέρδισε τη λαϊκή ψηφοφορία”.

Η XAI εξέδωσε ένα νέο πλαίσιο κινδύνου AI στις 10 Φεβρουαρίου, δηλώνοντας ότι η προσέγγιση της μηχανικής κοινής ωφέλειας του Hendrycks θα μπορούσε να χρησιμοποιηθεί για την αξιολόγηση του Grok.

Ο Hendrycks οδήγησε μια ομάδα από το Κέντρο Ασφάλειας AI, UC Berkeley και το Πανεπιστήμιο της Πενσυλβανίας που ανέλυσε τα μοντέλα AI χρησιμοποιώντας μια τεχνική που δανείστηκε από τα οικονομικά για να μετρήσει τις προτιμήσεις των καταναλωτών για διαφορετικά αγαθά. Με τη δοκιμή μοντέλων σε ένα ευρύ φάσμα υποθετικών σεναρίων, οι ερευνητές ήταν σε θέση να υπολογίσουν αυτό που είναι γνωστό ως λειτουργία χρησιμότητας, ένα μέτρο της ικανοποίησης που προέρχονται από ένα καλό ή μια υπηρεσία. Αυτό τους επέτρεψε να μετρήσουν τις προτιμήσεις που εκφράζονται από διαφορετικά μοντέλα AI. Οι ερευνητές διαπίστωσαν ότι ήταν συχνά συνεπείς και όχι τυχαίοι και έδειξαν ότι αυτές οι προτιμήσεις γίνονται πιο ριζωμένες καθώς τα μοντέλα γίνονται μεγαλύτερα και πιο ισχυρά.

Ορισμένες ερευνητικές μελέτες έχουν διαπιστώσει ότι τα εργαλεία AI όπως το ChatGPT είναι προκατειλημμένα προς τις απόψεις που εκφράζονται από προ-περιβαλλοντικές, αριστερές και ελευθεριακές ιδεολογίες. Τον Φεβρουάριο του 2024, η Google αντιμετώπισε κριτική από το Musk και άλλους, αφού το εργαλείο Gemini βρέθηκε να είναι προδιάθετο να παράγει εικόνες που οι κριτικοί που χαρακτηρίζονταν ως “ξύπνησαν”, όπως οι μαύροι Βίκινγκς και οι Ναζί.

Η τεχνική που αναπτύχθηκε από τον Hendrycks και τους συνεργάτες του προσφέρει έναν νέο τρόπο για να καθορίσει τον τρόπο με τον οποίο οι προοπτικές των μοντέλων AI μπορεί να διαφέρουν από τους χρήστες της. Τελικά, ορισμένοι εμπειρογνώμονες υποθέτουν, αυτό το είδος απόκλισης θα μπορούσε να γίνει δυνητικά επικίνδυνο για πολύ έξυπνα και ικανά μοντέλα. Οι ερευνητές δείχνουν στη μελέτη τους, για παράδειγμα, ότι ορισμένα μοντέλα εκτιμούν σταθερά την ύπαρξη AI πάνω από εκείνη ορισμένων μη ανθρώπινων ζώων. Οι ερευνητές λένε ότι διαπίστωσαν επίσης ότι τα μοντέλα φαίνεται να εκτιμούν μερικούς ανθρώπους σε σχέση με τους άλλους, δημιουργώντας τα δικά τους ηθικά ερωτήματα.

Ορισμένοι ερευνητές, συμπεριλαμβανομένων των Hendrycks, πιστεύουν ότι οι τρέχουσες μέθοδοι ευθυγράμμισης μοντέλων, όπως ο χειρισμός και η παρεμπόδιση των αποτελεσμάτων τους, μπορεί να μην επαρκούν εάν οι ανεπιθύμητοι στόχοι κρύβονται κάτω από την επιφάνεια μέσα στο ίδιο το μοντέλο. “Θα πρέπει να αντιμετωπίσουμε αυτό”, λέει ο Hendrycks. “Δεν μπορείτε να προσποιείτε ότι δεν είναι εκεί.”

Ο Dylan Hadfield-Menell, καθηγητής στο MIT που ερευνά τις μεθόδους για την ευθυγράμμιση του AI με τις ανθρώπινες αξίες, λέει ότι το έγγραφο του Hendrycks προτείνει μια πολλά υποσχόμενη κατεύθυνση για την έρευνα AI. “Βρίσκουν μερικά ενδιαφέροντα αποτελέσματα”, λέει. “Το κύριο που ξεχωρίζει είναι ότι καθώς η κλίμακα μοντέλου αυξάνεται, οι αναπαραστάσεις χρησιμότητας γίνονται πιο πλήρεις και συνεκτικές.”