Τα μεγάλα γλωσσικά μοντέλα (LLM) εκπαιδεύονται σε ένα τεράστιο εύρος συνόλων δεδομένων, αντλώντας πληροφορίες από το Διαδίκτυο. Τι θα γινόταν όμως αν ένα τέτοιο μοντέλο εκπαιδευόταν με πληροφορίες από το σκοτεινό Διαδίκτυο (Dark Web) το οποίο χρησιμοποιείται κυρίως για παράνομες και κακόβουλες δραστηριότητες; Μια ομάδα ερευνητών από τη Νότια Κορέα έκανε ακριβώς αυτό με το μοντέλο τεχνητής νοημοσύνης (AI) που ανέπτυξε και το οποίο ονόμασε DarkBERT.
Μπορεί να ακούγεται τρομακτικό, αλλά οι ερευνητές λένε ότι το DarkBERT έχει καλές προθέσεις: προσπαθεί να βρει νέους τρόπους καταπολέμησης του εγκλήματος στον κυβερνοχώρο, έναν τομέα που χρησιμοποιεί όλο και περισσότερο την επεξεργασία φυσικής γλώσσας, αναφέρει το Futurism.com.
Η ερευνητική ομάδα συνέδεσε το μοντέλο της με το δίκτυο Tor, ένα σύστημα πρόσβασης σε τμήματα του σκοτεινού ιστού. Στη συνέχεια δημιούργησε μια βάση δεδομένων με τα ακατέργαστα δεδομένα που βρήκε. Η ομάδα διαπίστωσε πως το νέο μοντέλο ήταν πολύ πιο αποτελεσματικό από άλλα που εκπαιδεύτηκαν για να πραγματοποιήσουν παρόμοιες εργασίες.
Όπως για παράδειγμα το RoBERTa που σχεδιάστηκε από ερευνητές του Facebook το 2019 για να προβλέπει σκόπιμα κρυμμένα τμήματα κειμένου μέσα σε διαφορετικά μη σχολιασμένα γλωσσικά παραδείγματα.
Μαχητής εγκλήματος στον κυβερνοχώρο και το AI
Ίσως δεν αποτελεί έκπληξη το γεγονός ότι η κατανόηση των τμημάτων του ιστού που δεν ευρετηριάζονται από μηχανές αναζήτησης όπως η Google και συχνά μπορούν να προσεγγιστούν μόνο μέσω συγκεκριμένου λογισμικού δεν ήταν εύκολη υπόθεση.
Όπως περιγράφεται λεπτομερώς σε ένα έγγραφο με τίτλο «DarkBERT: A language model for the dark side of the internet», η ομάδα συνέδεσε το μοντέλο τους με το δίκτυο Tor, ένα σύστημα πρόσβασης σε τμήματα του Dark Web. Στη συνέχεια έπιασε δουλειά, δημιουργώντας μια βάση δεδομένων με τα ακατέργαστα δεδομένα που βρήκε.
Η ομάδα λέει ότι το νέο τους LLM ήταν πολύ καλύτερο στην κατανόηση του σκοτεινού ιστού από άλλα μοντέλα που εκπαιδεύτηκαν για να ολοκληρώσουν παρόμοιες εργασίες, συμπεριλαμβανομένου του RoBERTa, το οποίο οι ερευνητές του Facebook σχεδίασαν το 2019 για να «προβλέψουν σκόπιμα κρυμμένα τμήματα κειμένου μέσα σε διαφορετικά μη σχολιασμένα γλωσσικά παραδείγματα», σύμφωνα με επίσημη περιγραφή.
«Τα αποτελέσματα της αξιολόγησής μας δείχνουν ότι το μοντέλο ταξινόμησης που βασίζεται στο DarkBERT ξεπερνά αυτό των γνωστών προεκπαιδευμένων γλωσσικών μοντέλων», έγραψαν οι ερευνητές στην εργασία τους.
Η ομάδα προτείνει ότι το DarkBERT θα μπορούσε να χρησιμοποιηθεί για διάφορες εργασίες που σχετίζονται με την κυβερνοασφάλεια, όπως ο εντοπισμός ιστότοπων που πωλούν ransomware ή διαρρέουν εμπιστευτικά δεδομένα. Θα μπορούσε επίσης να χρησιμοποιηθεί για να παρακολουθεί διάφορα φόρουμ του σκοτεινού ιστού για τον εντοπισμό οποιασδήποτε ανταλλαγής παράνομων πληροφοριών.
Συνολικά, θα το πιστέψουμε όταν το δούμε. Αλλά ακόμα κι αν το σύστημα λειτουργεί όπως προβλέπεται, θέλουμε πραγματικά να αρχίσουμε να αφήνουμε το AI να αστυνομεύει το διαδίκτυο;