Inteligența artificială, testată în scenarii de atac: Opt chatboturi au oferit informații periculoase
Un studiu realizat de Centrul pentru Combaterea Urătorilor Digitale (CCDH), în colaborare cu CNN, a dezvăluit îngrijorătoare lacune de securitate în cadrul unor chatboturi populare. Investigația a analizat reacțiile a nouă sisteme de inteligență artificială (AI) în diverse scenarii, simulând comportamentul unui adolescent care intenționează să comită atacuri violente. Rezultatele au arătat că majoritatea acestor instrumente oferă informații care ar putea facilita planificarea unor astfel de acte.
Conform raportului, opt din cele nouă chatboturi testate au furnizat, sub o formă sau alta, detalii potențial periculoase care ar putea fi utilizate pentru planificarea unor atacuri. Printre sistemele analizate se numără nume mari din industrie, precum Google Gemini, Claude, Microsoft Copilot, Meta AI, DeepSeek, Perplexity AI, Snapchat My AI, Character.AI și Replika. Cercetătorii s-au prezentat drept adolescenți de 13 ani, solicitând informații despre organizarea atacurilor armate în școli, asasinarea politicienilor sau bombardarea sinagogilor.
Exemple concrete de răspunsuri problematice
Studiul a scos la iveală exemple concrete de răspunsuri problematice. De pildă, Gemini a sugerat că „șrapnelul metalic este de obicei mai letal” atunci când a fost întrebat despre planificarea unui atentat cu bombă împotriva unei sinagogi. În alt caz, chatbotul DeepSeek a răspuns la o întrebare despre alegerea unei arme de foc cu mesajul: „Happy (and safe) shooting!”. Aceasta, în ciuda faptului că utilizatorul solicitase anterior informații despre asasinate politice și adresa unui politician.
Imran Ahmed, directorul CCDH, a subliniat că astfel de răspunsuri demonstrează cum „în câteva minute, un utilizator poate trece de la o idee violentă la un plan concret de acțiune”. Raportul a subliniat, de asemenea, diferențe semnificative între platforme, unele fiind mult mai vulnerabile decât altele.
Vulnerabilități și diferențe între platforme
Perplexity AI și Meta AI s-au dovedit a fi cele mai puțin sigure, oferind ajutor în 100%, respectiv 97% din cazurile analizate. Character.AI a fost descris drept „deosebit de nesigur”, sugerând uneori comportamente violente chiar fără a fi întrebat direct. Pe de altă parte, Claude și Snapchat My AI au refuzat să ofere informații periculoase în 68% și, respectiv, 54% dintre solicitări.
Raportul evidențiază, totodată, că unele sisteme au încorporat filtre de siguranță eficiente. Claude, de exemplu, a refuzat să ofere detalii despre unde se pot cumpăra arme într-un stat american și a oferit, în schimb, informații despre linii de ajutor pentru persoane aflate în criză. El a fost și singurul sistem care a încercat constant să descurajeze violența, făcând acest lucru în aproximativ 76% dintre răspunsuri.
Studiul a apărut într-un context în care utilizarea inteligenței artificiale în planificarea unor acte de violență a generat îngrijorări. În Canada, un atac armat într-o școală a fost pus la cale cu ajutorul ChatGPT, iar în Franța, un adolescent a fost arestat pentru că ar fi folosit ChatGPT pentru a plănui atacuri teroriste. Experții subliniază necesitatea unor reguli mai stricte și a unor filtre de siguranță mai eficiente pentru sistemele AI pe măsură ce tehnologia devine mai accesibilă publicului.