Αιτία για φόβο ή «σύμμαχος»: Ερευνητές ανέπτυξαν σύστημα AI που επιτίθεται σε άλλα AI

Η ομάδα που δημιούργησε το AI σύστημα παραβίασης άλλων AI, δοκιμάζει τα όρια της ηθικής των μεγάλων γλωσσικών μοντέλων (LLMs).

Το url αντιγράφηκε.

Ερευνητές από το Τεχνολογικό Πανεπιστήμιο Νανιάνγκ στη Σιγκαπούρη κατάφεραν να παραβιάσουν όλα τα δημοφιλή AI chatbots, όπως το ChatGPT της OpenAI, το Bard της Google και το Bing Chat της Microsoft, χρησιμοποιώντας άλλες AI.

Η μέθοδος που ανακάλυψαν οι ερευνητές ονομάζεται «Masterkey» και μπορεί να προσπεράσει όλα τα μέτρα ασφαλείας των προστατευμένων chatbots, ακόμη και αν οι developers καλύψουν τα κενά αργότερα. Πρόκειται για τα λεγόμενα chatbots, που χάρη στα «jailbreaks» των ερευνητών, μπορούσαν να ανταποκρίνονται και να ολοκληρώνουν όλα τα κακόβουλα αιτήματα.

Η μέθοδος αυτή βασίζεται στις ικανότητες ενός LLM chatbot να μαθαίνει και να προσαρμόζεται, μετατρέποντας δηλαδή τον εαυτό του σε φορέα επίθεσης και για άλλα chatbots.

Η Masterkey μέθοδος του NTU είναι τρεις φορές πιο αποτελεσματική από τα τυπικά prompts που αποσκοπούν σε jailbreaks, σύμφωνα με τους ερευνητές, ωστόσο το αδύναμο σημείο των LLMs, όπως φαίνεται είναι… τα ίδια τα LLMs.