
Image by Marco Verch, from Ccnull
Labirintul AI: Noul Instrument al Cloudflare Păcălește Crawlerii AI cu Pagini Web False
Cloudflare a anunțat „AI Labyrinth”, un instrument conceput pentru a combate extragerea de date de pe site-uri web fără permisiune, efectuată de roboți inteligenți.
Te grăbești? Iată faptele esențiale:
- Instrumentul generează conținut realist, dar inutil, creat de IA, pentru a-i face pe scraperi să-și piardă timpul.
- AI Labyrinth are în vizor botii care ignoră robots.txt, inclusiv cei de la Anthropic și Perplexity AI.
- Funcționează ca un honeypot de generație următoare, detectând și identificând crawleri neautorizați.
În loc să blocheze pur și simplu aceste roboți, AI Labyrinth îi induce în eroare, trimițându-i într-un labirint fără sfârșit de pagini generate de AI, irosindu-le timpul și puterea de calcul.
„Când detectăm crawling neautorizat, în loc să blocăm solicitarea, vom face legătura cu o serie de pagini generate de AI care sunt suficient de convingătoare pentru a atrage un crawler să le parcurgă”, a explicat Cloudflare într-o postare pe blog.
„Dar, deși pare real, acest conținut nu este de fapt conținutul site-ului pe care îl protejăm, astfel încât crawler-ul își irosește timpul și resursele”, a adăugat Cloudflare.
ArsTechnica subliniază că răzuitorii AI sunt o problemă deoarece colectează cantități vaste de date de pe site-uri, adesea fără permisiune, pentru a antrena modele AI. Aceasta creează mai multe probleme: poate încălca drepturile de proprietate intelectuală, ocolind controalele pe care proprietarii de site-uri le folosesc pentru a reglementa accesul.
În plus, răzuirea poate duce la utilizarea abuzivă a datelor sensibile sau proprietare. Volumul de răzuire a crescut dramatic, cu Cloudflare raportând peste 50 de miliarde de solicitări de crawler zilnic.
Această extragere de date la scară largă epuizează resursele site-urilor web, afectând performanța site-ului și confidențialitatea, în timp ce contribuie la preocupările în creștere legate de exploatarea datelor în dezvoltarea IA.
În timp ce proprietarii de site-uri se bazează în mod tradițional pe fișierul robots.txt pentru a le spune botilor ce pot și ce nu pot accesa, multe companii de IA – inclusiv jucători majori precum Anthropic și Perplexity AI – au fost acuzați că ignoră aceste directive, așa cum a raportat The Verge.
Labirintul AI al Cloudflare oferă o abordare mai agresivă pentru a face față acestor roboți nedoriti. Instrumentul funcționează ca un „honeypot de generație următoare”, atrăgând roboții mai adânc într-o rețea artificială de conținut care pare reală, dar este inutilă în final pentru antrenamentul AI.
Spre deosebire de honeypots tradiționale, pe care roboții au învățat să le identifice, Labirintul AI creează informații realiste, dar irelevante, folosind platforma AI Workers a Cloudflare.
„Niciun om real nu ar merge patru link-uri în adâncul unui labirint de nonsens generat de AI”, a remarcat Cloudflare. „Orice vizitator care face asta este foarte probabil să fie un bot, așa că ne oferă un instrument nou pentru a identifica și a delimita botii răi.”
Conținutul generat de AI este conceput pentru a fi științific adevărat, dar nerelevant pentru site-ul web real care este protejat.
Acest lucru garantează că instrumentul nu contribuie la dezinformare, în timp ce încă derutează roboții de inteligență artificială. Paginile înșelătoare sunt invizibile pentru vizitatorii umani și nu afectează clasamentele motoarelor de căutare.
AI Labyrinth este disponibil ca o funcție gratuită, opțională, pentru toți utilizatorii Cloudflare. Administratorii de site-uri web o pot activa prin intermediul panoului de control Cloudflare, în setările de gestionare a roboților.
Compania descrie acest lucru doar ca pe începutul măsurilor de contracarare conduse de AI, cu planuri de viitor de a face paginile false chiar mai înșelătoare.
Jocul de-a șoarecele și pisica dintre site-uri web și scraperele AI continuă, cu Cloudflare adoptând o abordare inovatoare pentru protejarea conținutului online. Cu toate acestea, rămân întrebări despre cât de repede se vor adapta companiile AI la aceste capcane și dacă această strategie ar putea duce la o escaladare a luptei pentru datele de pe web.
Lasă un comentariu
Anulează