Το μοντέλο GPT-4.5 της OpenAI περνά το τεστ Turing με εντυπωσιακά αποτελέσματα

April 8, 2025

- Advertisement -

Σύμφωνα με νέα προδημοσιευμένη μελέτη που αναμένει αξιολόγηση από ομότιμους, ερευνητές αναφέρουν ότι σε μια τριμερή έκδοση του τεστ Turing, όπου οι συμμετέχοντες συνομιλούν ταυτόχρονα με έναν άνθρωπο και μια τεχνητή νοημοσύνη και στη συνέχεια αξιολογούν ποιος είναι ποιος, το μοντέλο GTP-4.5 της OpenAI θεωρήθηκε άνθρωπος στο 73% των περιπτώσεων όταν είχε οδηγίες να υιοθετήσει συγκεκριμένο χαρακτήρα. Το ποσοστό αυτό είναι σημαντικά υψηλότερο από την τυχαία πιθανότητα του 50%, υποδηλώνοντας ότι το τεστ Turing έχει ξεπεραστεί κατά πολύ.

Η έρευνα αξιολόγησε επίσης το μοντέλο LLama 3.1-405B της Meta, το μοντέλο GPT-4o της OpenAI και ένα πρώιμο chatbot γνωστό ως ELIZAπου αναπτύχθηκε αρκετά χρόνια πριν.

“Οι άνθρωποι δεν ήταν καλύτεροι από την τύχη στο να διακρίνουν ανθρώπους από το GPT-4.5 και το LLaMa (με την προτροπή προσωπικότητας)”, έγραψε ο επικεφαλής συγγραφέας Cameron Jones, ερευνητής στο Εργαστήριο Γλώσσας και Γνώσης του UC San Diego,σε ανάρτηση στο Χ σχετικά με την εργασία. “Και το GPT 4.5 κρίθηκε ως άνθρωπος σημαντικά συχνότερα από τους πραγματικούς ανθρώπους!”

Το τεστ Turing οφείλει την ονομασία του στον Βρετανό μαθηματικό και επιστήμονα υπολογιστών Alan Turing. Το 1950, ο Turing πρότεινε μια μέθοδο για την αξιολόγηση της νοημοσύνης μιας μηχανής, η οποία περιλάμβανε συνομιλίες κειμένου μεταξύ ενός ανθρώπου-αξιολογητή και δύο συνομιλητών που βρίσκονταν εκτός οπτικού πεδίου: μιας μηχανής και ενός άλλου ανθρώπου. Ο ίδιος ο Turing αναφερόταν σε αυτή τη διαδικασία ως “παιχνίδι μίμησης”.

Στην πρόσφατη μελέτη, οι ερευνητές διεξήγαγαν το περίφημο πείραμα σε μια διαδικτυακή πλατφόρμα. Για οκτώ γύρους, ένα δείγμα σχεδόν 300 συμμετεχόντων τοποθετήθηκε τυχαία είτε ως ανακριτής είτε ως ένας από τους δύο “μάρτυρες” που ανακρίνονται, με τον άλλο “μάρτυρα” να είναι ένα chatbot.

Ένα βασικό σημείο εδώ είναι πώς προγραμματίστηκαν τα μοντέλα AI. Ένας τύπος ήταν η προτροπή “χωρίς προσωπικότητα”, όπου η AI έλαβε μόνο βασικές οδηγίες. Για την προτροπή “προσωπικότητας”, από την άλλη πλευρά, η AI ενημερώθηκε συγκεκριμένα να υιοθετήσει συγκεκριμένο χαρακτήρα, όπως ένα νεαρό άτομο με γνώσεις για το διαδίκτυο και τον πολιτισμό.

Οι οδηγίες αυτές έκαναν τεράστια διαφορά. Χωρίς προτροπή προσωπικότητας, το GPT-4.5 πέτυχε συνολικό ποσοστό επιτυχίας μόλις 36%, σημαντικά χαμηλότερο από το 73% που θριάμβευσε στο Turing. Ως βάση, το GPT-4o, που τροφοδοτεί την τρέχουσα έκδοση του ChatGPT και έλαβε μόνο προτροπές χωρίς προσωπικότητα, πέτυχε ένα ακόμη λιγότερο πειστικό 21%. (Κάπως, το αρχαίο ELIZA ξεπέρασε οριακά το κορυφαίο μοντέλο της OpenAI με ποσοστό επιτυχίας 23%.)

Ωστόσο, όπως επισημαίνει ο Jones, τα αποτελέσματα δεν σημαίνουν απαραίτητα ότι τα LLMs είναι ευφυή όπως οι άνθρωποι. “Νομίζω ότι είναι μια πολύ περίπλοκη ερώτηση…”, έγραψε ο Jones στο Twitter. “Αλλά γενικά πιστεύω ότι αυτό θα πρέπει να αξιολογηθεί ως ένα από τα πολλά πρόσθετα στοιχεία για το είδος της νοημοσύνης που εμφανίζουν τα LLMs.”

“Πιστεύω ότι τα αποτελέσματα παρέχουν περισσότερες αποδείξεις ότι τα LLMs θα μπορούσαν να υποκαταστήσουν τους ανθρώπους σε σύντομες αλληλεπιδράσεις χωρίς κανείς να μπορεί να το καταλάβει”, πρόσθεσε. “Αυτό θα μπορούσε δυνητικά να οδηγήσει σε αυτοματοποίηση θέσεων εργασίας, βελτιωμένες επιθέσεις κοινωνικής μηχανικής και γενικότερη κοινωνική αναστάτωση.”

Ο Jones κλείνει τονίζοντας ότι το τεστ Turing δεν βάζει μόνο τις μηχανές κάτω από το μικροσκόπιο – αντικατοπτρίζει επίσης τις συνεχώς εξελισσόμενες αντιλήψεις των ανθρώπων για την τεχνολογία. Έτσι τα αποτελέσματα δεν είναι στατικά: ίσως καθώς το κοινό εξοικειώνεται περισσότερο με την αλληλεπίδραση με την τεχνητή νοημοσύνη, θα γίνει καλύτερο και στον εντοπισμό της.

Πηγή: Insomnia.gr

Το μοντέλο GPT-4.5 της OpenAI περνά το τεστ Turing με εντυπωσιακά αποτελέσματα

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

ΠΡΟΣΦΑΤΑ ΑΡΘΡΑ