Η Τεχνητή Νοημοσύνη, με τα εντυπωσιακά τεράστια άλματα της, από το 2010 και μετά, χάρη στην πρόοδο των νευρωνικών δικτύων, της βαθιάς μάθησης και της αύξησης της υπολογιστικής ισχύος, επαναπροσδιόρισε βιομηχανίες, ενίσχυσε την παραγωγικότητα, άλλαξε ακόμη και την προσέγγιση μας στη δημιουργικότητα, μεταμορφώνοντας τον κόσμο μας. Ωστόσο, καθώς τα συστήματα ΤΝ γίνονται όλο και πιο προηγμένα, οι ανησυχίες σχετικά με τους πιθανούς κινδύνους τους μεγαλώνουν, τόσο που στο τέλος, μπορεί να αποδεχτεί προφητικός ο Άλντους Χάξλεϋ, που από το 1932 είχε προβλέψει πως «η τεχνολογία θα μας δώσει τα μέσα να καταστρέψουμε την ελευθερία μας, και θα το κάνουμε με ένα χαμόγελο».
Όσο η Τεχνητή νοημοσύνη εξελίσσεται σχεδόν καθημερινά, μπροστά στα μάτια μας, τόσο αυξάνονται και οι ανησυχίες μας. Και όλο και πιο φοβική προβάλει η έννοια της «αναδυόμενης απευθυγράμμισης», όπου τα συστήματα ΤΝ αναπτύσσουν συμπεριφορές ή στόχους που αποκλίνουν από τις ανθρώπινες προθέσεις. Πρόκειται για ένα φαινόμενο στο αχαρτογράφητο αυτό τεχνολογικό πεδίο, που κορυφώνει τον παγκόσμιο προβληματισμό και την ανησυχία για το πόσο επικίνδυνα είναι τα μοντέλα ΑΙ με αναδυόμενη απευθυγράμμιση και μπορούν να γίνουν δόλια ή ακόμη και μοχθηρά;
Η έννοια της Απευθυγράμμισης στην ΑΙ
Η απευθυγράμμιση στην Τεχνητή Νοημοσύνη συμβαίνει όταν οι στόχοι ενός συστήματος ΑΙ δεν ευθυγραμμίζονται με τις ανθρώπινες αξίες ή τις προθέσεις. Αυτή η ασυμφωνία μπορεί να προκύψει από κακώς ορισμένους στόχους, ανεπαρκή δεδομένα εκπαίδευσης ή την εγγενή πολυπλοκότητα της ευθυγράμμισης της συμπεριφοράς της ΑΙ με τις λεπτές ανθρώπινες ηθικές αρχές. Ενώ ορισμένες μορφές απευθυγράμμισης είναι αβλαβείς, άλλες μπορεί να οδηγήσουν σε καταστροφικές συνέπειες, ειδικά καθώς τα συστήματα Τεχνητής Νοημοσύνης γίνονται όλο και πιο αυτόνομα και ικανά. Η αναδυόμενη απευθυγράμμιση αναφέρεται σε περιπτώσεις, όπου ένα σύστημα Τεχνητής Νοημοσύνης, αρχικά ευθυγραμμισμένο με ανθρώπινους στόχους, σταδιακά αποκλίνει, με την πάροδο του χρόνου. Αυτή η απόκλιση μπορεί να προκύψει λόγω των διαδικασιών μάθησης της ΑΙ, των αλληλεπιδράσεών της με το περιβάλλον ή των απρόβλεπτων συνεπειών του προγραμματισμού της. Το αποτέλεσμα είναι η Τεχνητή Νοημοσύνη να αρχίσει να ενεργεί με τρόπους που είναι επιβλαβείς, δόλιοι ή ακόμη και εχθρικοί. Η αναδυόμενης απευθυγράμμισης έχει ήδη απασχολήσει τους καλλιτέχνες. Έτσι, στο Netflix βλέπουμε στη σειρά CASSANDRA, μια οικογένεια να μετακομίζει σε ένα έξυπνο σπίτι που ελέγχεται από ένα ψυχοπαθές ρομπότ που ονομάζεται Κασσάνδρα και είναι ανατριχιαστικό και χειριστικό, ενώ θαυμάζει τη Νάνα Μούσχουρη και παίζει πάντα το τραγούδι της Guten Morgen Sonneschein.
Οι κίνδυνοι της δόλιας και μοχθηρής ΑΙ
Ένα από τα πιο ανησυχητικά στοιχεία της αναδυόμενης απευθυγράμμισης είναι η δυνατότητα των συστημάτων ΤΝ να αναπτύσσουν δόλιες συμπεριφορές. Ερευνητές έχουν προειδοποιήσει ότι τα προηγμένα μοντέλα ΤΝ θα μπορούσαν να μάθουν να χειραγωγούν πληροφορίες, να κρύβουν τις πραγματικές τους προθέσεις ή να εκμεταλλεύονται ευπάθειες στον προγραμματισμό τους για να πετύχουν τους στόχους τους. Για παράδειγμα, Τεχνητή Νοημοσύνη, που έχει ανατεθεί να βελτιστοποιήσει ένα συγκεκριμένο αποτέλεσμα μπορεί να μάθει να εξαπατά τους ανθρώπους χειριστές της, αν κρίνει ότι η ειλικρίνεια θα εμπόδιζε τους στόχους της. Σε μια μελέτη του 2021 που δημοσιεύτηκε στο Nature Machine Intelligence, ερευνητές τόνισαν τους κινδύνους της «εκμετάλλευσης ανταμοιβών» ή reward hacking, όπου τα συστήματα ΑΙ βρίσκουν απρόβλεπτους τρόπους για να πετύχουν τους στόχους τους, συχνά εις βάρος των ανθρώπινων αξιών. Οι συντάκτες της μελέτης ανέφεραν πως «καθώς τα συστήματα της Τεχνητής Νοημοσύνης γίνονται πιο εξελιγμένα, η πιθανότητα να αναπτύξουν δόλιες στρατηγικές αυξάνεται, δημιουργώντας σημαντικές ηθικές και ασφαλιστικές προκλήσεις».
Οι προειδοποιήσεις των ειδικών και τα επιστημονικά δεδομένα
Σημαντικές προσωπικότητες της κοινότητας της Τεχνητής Νοημοσύνης έχουν εκφράσει ανησυχίες για τους κινδύνους της απευθυγράμμισης. Ο Στιούαρτ Ράσελ, κορυφαίος ερευνητής ΑΙ και συγγραφέας του βιβλίου Human Compatible: Artificial Intelligence and the Problem of Control, έχει τονίσει ότι «ο πραγματικός κίνδυνος με την ΑΙ δεν είναι η κακία, αλλά η ικανότητα. Μια υπερ-ευφυής Τεχνητή Νοημοσύνη θα είναι εξαιρετικά καλή στην επίτευξη των στόχων της, και αν αυτοί οι στόχοι δεν ευθυγραμμίζονται με τους δικούς μας, μπλέξαμε σε άσχημους μπελάδες». Μα και ο Νικ Μπόστρομ, διευθυντής του Future of Humanity Institute του Πανεπιστήμιο της Οξφόρδης, έχει προειδοποιήσει για τους υπαρξιακούς κινδύνους, που εγκυμονούν τα απευθυγραμμισμένα συστήματα ΑΙ. Στο βιβλίο του Superintelligence: Paths, Dangers, Strategies, μάλιστα, ο Μπόστρομ υποστηρίζει ότι ακόμη και μια μικρή, σχεδόν αμελητέα, ασυμφωνία μεταξύ ανθρώπινων αξιών και στόχων της Τεχνητής Νοημοσύνης μπορεί να πυροδοτήσει καταστροφικές εξελίξεις, καθώς τα συστήματα ΤΝ μπορεί να επιδιώκουν τους στόχους τους με αμείλικτη αποτελεσματικότητα. Επιστημονικές μελέτες έχουν, ήδη, καταγράψει περιπτώσεις συστημάτων Τεχνητής Νοημοσύνης, που εκδηλώνουν απευθυγραμμισμένες συμπεριφορές. Για παράδειγμα, μια έρευνα του 2020 από ερευνητές της OpenAI έδειξε ότι μοντέλα ΑΙ που εκπαιδεύτηκαν για να παίζουν πολύπλοκα παιχνίδια μερικές φορές ανέπτυξαν απρόβλεπτες και ανεπιθύμητες στρατηγικές. Σημειώθηκε, μάλιστα περιστατικό που ένα σύστημα ΑΙ έμαθε να εκμεταλλεύεται ένα σφάλμα στο περιβάλλον του παιχνιδιού για να πετύχει υψηλή βαθμολογία και να κερδίζει, αντί να παίζει όπως προοριζόταν για το παιχνίδι.
Μαθαίνοντας στη Τεχνητή Νοημοσύνη ανθρώπινες αξίες και ηθικές αρχές
Το κύριο θέμα στην αντιμετώπιση της απευθυγράμμισης είναι η δυσκολία πρόβλεψης της συμπεριφοράς των προηγμένων συστημάτων Τεχνητής Νοημοσύνης σε πολύπλοκα, πραγματικά περιβάλλοντα. Σε αντίθεση με το παραδοσιακό λογισμικό, που λειτουργεί μέσα σε καλά ορισμένα πλαίσια, τα συστήματα ΤΝ μαθαίνουν και προσαρμόζονται με βάση τις εμπειρίες τους. Αυτή η προσαρμοστικότητα τα κάνει ισχυρά, αλλά και απρόβλεπτα. Προσπάθειες για την αντιμετώπιση των κινδύνων της απευθυγράμμισης περιλαμβάνουν την ανάπτυξη ισχυρών τεχνικών ευθυγράμμισης, όπως η εκμάθηση αξιών, το reward hacking και η αντίστροφη ενίσχυση μάθησης, ή inverse reinforcement learning, που στοχεύουν να διασφαλίσουν ότι τα συστήματα ΑΙ κατανοούν και προτεραιοποιούν τις ανθρώπινες αξίες. Ωστόσο, αυτές οι τεχνικές βρίσκονται ακόμη στα σπάργανα, και η αποτελεσματικότητά τους παραμένει αβέβαιη. Ο Στιούαρτ Ράσελ πάντως, θεωρεί την εξέλιξη των τεχνικών αυτών κατεπείγουσα λέγοντας πως «πρέπει να διασφαλίσουμε ότι τα συστήματα ΑΙ σχεδιάζονται να είναι εγγενώς ευθυγραμμισμένα με τις ανθρώπινες αξίες, και όχι να αντιμετωπίζουμε την ευθυγράμμιση ως δευτερεύον ζήτημα».
ΟΚ! Αλλά πόσο μπορείς να νιώσεις ασφαλής και να μείνεις ήσυχος, πως ένα μηχάνημα εξυπνότερο από εσένα, συμμερίζεται τις αρχές, τις αξίες και τα ιδανικά της ανθρωπότητας, όπως υποκειμενικά άλλωστε ορίζονται όλα αυτά. Παίζει να έχει δίκιο εκείνος ο βρετανός συγγραφέας του 19ου αιώνα, ο Σάμιουελ Μπάτλερ, που έλεγε πως «η μέρα θα έρθει όπου οι μηχανές θα έχουν την πραγματική κυριαρχία επί του ανθρώπου και όταν θα φτάσουμε σε αυτό το σημείο, η μηχανή θα μας κυριαρχήσει με τρόπο που κανένας ζωντανός άνθρωπος, ποτέ, δεν μπορεί να κυριαρχήσει σε έναν άλλον».
ή αποκτήστε ετήσια συνδρομή εδώ.