1 – Deep Web: molti critici… ma quanti utenti?

Molti articoli su Internet non hanno dubbi: il cosiddetto Deep Web è un posto da evitare. Ti piacerebbe se ti svuotassero il conto? Non hai paura di essere spiato? O, ancora peggio, che la polizia irrompa nel tuo appartamento e ti arresti come in un film americano? Se non stai cercando niente del genere, è meglio se stai nel tuo recinto sicuro fatto da Google, Facebook e simili. Molti critici sono sicuri, tra cui ad esempio Wired, Le Iene, Repubblica.

Sarà perché non mi sono mai piaciute le istruzioni per principianti. O perché diversi argomenti in molti dei suddetti articoli contengono contraddizioni. Potrebbe anche essere perché, francamente, l’Internet a cui siamo abituati adesso non mi sembra tanto migliore di quello degli anni Novanta. Ha avuto un ruolo importante anche l’impressione che chi ha condannato senza esitazioni l’intero Deep Web ha basato il suo giudizio esclusivamente su un giro veloce e poche citazioni capite soltanto in parte.

In ogni caso, in questo articolo ho deciso di provare a realizzare una riflessione diversa sul Deep Web, il cui scopo principale è comprendere il suo reale potenziale e cosa potremmo perderci continuando a ignorarlo.

dw7

2 – Deep Web e Surface Web secondo alcune interpretazioni alternative

In primo luogo, che cosa è il Deep Web? Facile, hanno detto molti critici (quasi tutti basandosi su un rapporto di Bright Planet per NDS, del 2001): si tratta di tutto quello che non può essere indicizzato dai normali motori di ricerca come Google, Bing, Yahoo, ecc. Ovviamente con questo si definisce per opposizione anche il web “di superficie” o “normale”.

In secondo luogo, qual è l’argomento che ha più sostenitori? Semplicemente che il Deep Web è enorme, oscuro e pericoloso: sfruttando la metafora degli abissi e in coerenza con la retorica di tutto ciò che concerne il web, sempre più impegnata a trasmettere un messaggio già noto: puoi sentirti sicuro se navighi su Internet guardando solo i siti “normali” e possiedi un set di software classici e tecnologie come un antivirus, un anti-malware, un firewall e così via.

Molti elementi, quindi, fanno sollevare dei dubbi. Non solo perché alcuni autori (perlopiù oppositori, ma anche membri della maggioranza, come Federico Rampini) hanno sottolineato che il web ordinario non sia poi molto diverso dal potente Grande Fratello, grazie alle sue sistematiche strategie di raccolta dati anti-privacy. C’è anche un numero significativo di esempi di major di tecnologie dell’informazione colpevoli di evasione fiscale e di maltrattamento dei lavoratori. In più, la presenza dei cosiddetti siti shock (come rotten.com e simili) prova che l’assenza di contenuti macabri e inquietanti nel web indicizzato non sia un argomento poi così solido. Parole chiave come ransomware, Snowden, Stuxnet, Hacking Team e, di recente, Vault 7 svelano un altro concetto chiave: i cattivi non vivono solo nel Deep Web e probabilmente non possono essere trovati esclusivamente tra attivisti o gruppi e istituzioni poco conosciuti.

dw2

Molte ipotesi, basate sul concetto che il web ordinario e i suoi attori principali (Jobs, Zuckerberg, Page&Brin…) non siano così buoni come si pensa, riconsiderano il Deep Web evidenziando la prospettiva dell’autenticità. In altre parole, il Deep Web sarebbe l’unico Internet in cui, al giorno d’oggi, sopravvive lo spirito, fondamentalmente anarchico e incredibilmente fiducioso nella libertà personale, che è stato il segno distintivo dell’Internet dei primi anni e, probabilmente, anche della filosofia delle infrastrutture tecnologiche (i protocolli TCP/IP). Uno scenario in cui quasi tutti erano hacker, nel senso di persone che usano qualcosa in modo creativo, spesso in maniera non prevista o documentata.

Da questo punto di vista, navigare senza pregiudizi nel Deep Web dà molte conferme. Come verrà approfondito nel resto dell’articolo, temi come pirateria, sicurezza della tecnologia dell’informazione e libertà d’informazione vengono analizzati molto nelle pagine “profonde” mentre non lo sono abbastanza in quelle di “superficie”. Qui le norme di legge (specialmente sull’argomento del copyright), insieme a esigenze di marketing e di sicurezza pubblica e, in alcuni Paesi, alla censura, hanno reso pericoloso scrivere contenuti borderline per chi li voglia pubblicare; quindi questi contenuti hanno lasciato la superficie per scendere in profondità. In alcuni Paesi e in alcuni momenti, “borderline” potrebbe significare contrario alla legge, ma non necessariamente contrario all’etica o privo di ogni morale, come per esempio accade con alcuni contenuti relativi alla completa divulgazione delle tecnologie dell’informazione e della comunicazione, con l’ambientalismo esasperato, con i movimenti no-global o anti-copyright e così via.

dw4

3 – Che cosa contiene e… quanto è grande?

Abbiamo probabilmente capito che il Deep Web non è il male assoluto, e che è possibile vedere alcune delle sue parti in questo modo. Inoltre, quante sono le aree totali più o meno “accettabili” (da una prospettiva più etica che legale, per le ragioni spiegate in precedenza)? E infine, quanto è grande questo terrificante Deep Web, in particolare in confronto al web ordinario su cui è stato pubblicato questo articolo?

Qui abbiamo toccato un altro punto chiave del ragionamento che potrebbe in parte contribuire a smontare l’argomento mediatico di un “enorme e insondabile” Deep Web. Il rapporto tra le dimensioni del Deep Web e quello ordinario scritto quasi ovunque è di 400:1, cioè di 8000:20 TB, come indicano le cifre riportate nel sopracitato rapporto ufficiale di Brightplanet. In pochi hanno scritto sulle conseguenze di questo fatto. In realtà, quasi tutti l’hanno accettato senza esitazioni, corredando invece questi numeri con una bella foto o con un’immagine esplicativa di un iceberg.

Eppure, queste cifre sono abbastanza problematiche, soprattutto se proviamo a collegare i 20 TB stimati con qualche valutazione conosciuta e accettata sull’ Internet di oggi. Queste stime indicano circa un milione di utenti, 2 MB come il peso della pagina web standard, una media di cinque pagine per utente (o, in altre parole, per ogni sito web). Il dubbio è, in sostanza, il seguente: possiamo accettare che Internet nel 2001 fosse contenuto in venti PC normali o laptop (cioè duemila utenti di sedici anni fa, ipotizzando 10 GB come spazio standard fornito da un comune hard disk nel 2001?). È ragionevole pensare che, supponendo costante il rapporto di 400:1 in questi anni, il Deep Web odierno contenga 4,4 EB (1 EB = 1.000.000 TB), circa un terzo dello spazio totale fornito dal centro dati di Google (15 EB)? Quanti attivisti (o terroristi, trafficanti d’armi, pedofili ecc) sarebbero necessari per scrivere e mantenere tutte queste pagine?

Non è questo, ovviamente, il posto giusto dove inserire troppa matematica (che dovrebbe tenere in considerazione molti altri elementi, primo fra tutti i profili di traffico) ma forse è già chiaro che una differente spiegazione dei 4,4 EB è possibile o probabilmente necessaria. L’ipotesi più semplice e per molti versi più solida è la seguente: il Deep Web è enorme solo in conseguenza di una definizione errata che vi inserisce quasi tutto il dietro le quinte del Surface Web.

dw6

Non c’è nulla di misterioso, difficile e, in generale, così interessante nella stragrande maggioranza degli exabyte “deep”. Questi sono puramente delle pagine server-side, costruite dinamicamente e che recuperano informazioni da database interni spesso molto grandi: esempi tipici sono tanti mercati online. Spesso queste pagine sono introdotte da un modulo di ricerca che ferma molti bot; così queste sono invisibili agli spider e non vengono indicizzate, niente di più e niente di meno. Molti byte non indicizzati possono, inoltre, essere associati con contenuti di streaming come accade con Youtube. In questo caso, la pagina HTML che contiene contenuti statici come testo, immagini, stili, generalmente consiste in non più dei classici 2 MB. Qui il video musicale, ad esempio, è rappresentato soltanto da un URL, i cui byte sono direttamente inviati al dispositivo cliente che gestisce la bufferizzazione e la visualizzazione. In poche parole: 2 MB sono il contenuto di superficie (indicizzato), 200 MB (un normale file MP4 di 10-20 minuti) sono i contenuti deep: da qui un rapporto 1:100 simile al misterioso 1:400 riportato precedentemente.

Dunque, adottando una differente definizione del Deep Web, più coerente con l’Internet di oggi, è abbastanza ovvio che una parte significativa delle narrazioni mediatiche, semplicemente, comincia a scomparire. Quindi, cosa rimane alla fine?

Ci sono, prima di tutto, contenuti P2P il cui comportamento è parzialmente simile ai contenuti video e dinamici discussi prima, siccome questi cominciano a esistere sul web solo dopo che una connessione peer-to-peer è stata stabilita. È verosimile che il loro contributo, in termini di contenuto medio online (dipendentemente dal numero di semi, dal loro tempo di permanenza online e dal numero di riceventi), sia molto meno della corrispondente quota del 10% del totale del traffico dovuta ad essi ad oggi (CISCO). Uno potrebbe stimare, così, un’occupazione di pochi punti percentuali della dimensione totale del Deep Web. Il pericolo vero e l’immoralità implicata da questi contenuti sono, certamente, molto variabili. Un file torrent può collegare, ad esempio, sia a un’immagine ISO di una distribuzione Linux completamente etica e rispondente alle leggi internazionali, a qualche contenuto audio estratto attraverso ripping, a contenuto pedopornografico e così via.

Ci sono, in seconda battuta, molte normali pagine web (spesso personali o amatoriali) non indicizzate dai principali motori di ricerca. Possono essere navigate con un qualsiasi web browser e, ovviamente, possono non essere qualcosa di così strano, dato che chiunque (inclusi polizia ed enti governativi) può visitarle senza particolari trucchi del mestiere.

dw8

Ci sono infine tutti i contenuti inaccessibili se si usano strumenti ordinari come quelli in rete, ad esempio TOR, I2P, Freenet, IRC, XMPP, ONIONCAT, ecc. Di quanto spazio web statico (secondo la definizione tradizionale di “8000 TB”) avrebbero bisogno? Si è stimato che gli host dell’ambiente TOR erano 100.000 nel 2001 e 300.000 nel 2007, quindi è piuttosto ragionevole calcolare una cifra attuale di circa 500.000 host, corrispondenti a 5-10 TB di spazio web (di nuovo in confronto a qualche EB della dimensione totale del web). Si dice che queste pagine rimangano online in media per meno di tre giorni (video).

Un’analisi completa di questa cosiddetta Darknet è molto difficile. Per prima cosa non si può semplicemente navigare tra le sue pagine usando un browser tradizionale: bisogna usarne uno specifico, chiamato TOR (The Onion Router) che, attraverso una tecnologia a più livelli che in un certo senso ricorda gli strati di una cipolla, nasconde l’indirizzo IP e in questo modo una parte significativa dei dati personali. Sebbene installare TOR (o usare un servizio online corrispondente come TOR2WEB) non sia un’operazione poi così complicata, taglia comunque fuori molti utenti Internet poco esperti in campo tecnologico. E comunque utilizzando semplicemente TOR o TOR2WEB (più semplici ma molto a rischio), è possibile raggiungere solo alcuni siti Internet .onion semplici o non riservati come The Pirate Bay. Molti altri domini non rientrano nel campo di azione perché usano tecnologie più potenti per permettere le ricerche solo a utenti specifici e realmente interessati, a volte, o forse spesso, a qualcosa di immorale o illegale.

Per tutte queste ragioni possiamo dire che tale analisi va oltre lo scopo di questo articolo. È comunque possibile reperire facilmente alcuni articoli accademici, progetti di ricerca o tesi di dottorato dedicate a questo argomento. A onor del vero, molti di questi (CRYPTO) hanno evidenziato che questi servizi nascosti, sebbene siano stati progettati per scopi lodevoli come per tutelare la libertà di pensiero e dell’informazione specialmente sotto dittature e tirannie, attualmente sono spesso (50%-60% del totale) usate in attività illecite, con una netta prevalenza di quelle totalmente inaccettabili (persino nei regimi liberali) rispetto a quelle eticamente accettabili o neutrale. Questo tuttavia non può compromettere il nostro argomento principale, cioè che stare lontani dal Darkweb tout court potrebbe non essere la migliore delle scelte. Questo lo si potrà capire, auspicabilmente, leggendo il prossimo paragrafo.

dw5

4 – Camminare in un quartiere pericoloso

Insomma, abbiamo trovato una parte del web che, per certi versi, può essere considerata come zona di pericolo, e, per altri, può risultare di grande interesse. In primis, perché è priva di molti filtri (primo fra tutti quello sul politically correct, ma non solo) che fanno della nostra esperienza di navigazione una mera gita fra le nostre cartelle “preferite”. Questo ci porta inevitabilmente a rispondere a domande come “Cosa fare di questo micro-mondo?”.

Ignorarlo del tutto, ovviamente, è una soluzione. Ma assomiglia più ad una via di fuga, no? Non semplicemente da una realtà virtuale o da una tecnologia, ma dai rischi che sono da sempre implicati nella ricerca del sapere.

Probabilmente l’aspetto più interessante del Deep Web è che ci obbliga a scegliere il nostro stile di navigazione. C’è un’ampia gamma di scelte e ci ritroviamo faccia a faccia con la nostra natura di studenti, ricercatori o semplici cittadini. Siamo disposti a prenderci dei rischi per scoprire o capire qualcosa? O consideriamo la sicurezza come priorità assoluta, reale o illusoria che sia?

Per quanto mi riguarda, ho trovato molto interessanti le ricerche nel Deep Web su hackeraggio, sicurezza informatica, anonimato e privacy, teorie complottiste. Il tutto in grande sicurezza, basta seguire alcuni accorgimenti spiegati in seguito.

Ho iniziato sempre da Hidden Wiki (HW), una sorta di directory del Deep Web ordinata per temi. Molti la considerano il vero e proprio portale per il Weep web e, vista la semplicità e la ricchezza di informazioni, mi ritengo d’accordo. Tuttavia, fin dalle prime pagine ci accorgiamo che la prospettiva è cambiata in modo radicale rispetto alla “superficie”. Lassù, per esempio, Google è Google, mentre qui, essendo tutti in incognito, non c’è modo di sapere se stiamo visualizzando l’Hidden Wiki giusto, quello vero… semplicemente perché non esiste!

Hidden Wiki è dunque una rappresentazione della Darknet (rete oscura), seppur piuttosto limitata e ottimistica… ma in sostanza, cosa contiene? La tabella seguente è un tentativo di classificare gli argomenti dei siti menzionati (ottenuti da testi descrittivi) divisi in categorie e parole chiave:

dw3

Dopo questa prima analisi, ho effettuato un’indagine volutamente settoriale, evitando tutte quelle pagine che riguardassero argomenti che considero inquietanti (come droga, armi, pedofilia) o poco interessanti, come sesso o appuntamenti.

Questa limitazione ha prodotto una lista di alcuni siti web .onion, ovvero che necessitano di un sistema TOR o TOR2WEB per essere visualizzati, che può dare un’idea dei mari in cui mi sono trovato a navigare:

  • Hidden Wiki – La matrice (un probabile punto di partenza e un manifesto interessante della visione del mondo condivisa da buona parte del Deep Web)
  • Motore di ricerca TOR: Innocuo (Sostiene di avere più di 1.000.000 di host indicizzati…sarà vero?)
  • Ground Zero (Accademia degli Hacker)
  • Facebook come servizio nascosto (Reale o presunto?)
  • Hidden Answers (Una sorta di Yahoo Answers del Deep Web)
  • Project Strongbox – Secure Drop del New Yorker (Non c’è di che, informatori di tutto il mondo!)
  • ParaZite (Un’esaustiva enciclopedia sui temi di anarchia e attivismo estremo)
  • Imperial Library di Tantor (La libreria d’Alessandria di chi è contro il copyright)
  • TOR Against CP (Hackers contro i siti di pedo-pornografia)

A questo punto, molti si chiederanno quali siano i rischi di un’esplorazione come quella che ho fatto io. Questo non è di certo un post dettagliato dal punto di vista tecnico, ma si possono fare alcune osservazioni basilari di informatica che però sembrano essere sfuggite a tutti quelli che sottolineavano i rischi di navigare nel Deep Web, come ad esempio: non si può rubare un’informazione inesistente!

Quindi, una cosa è navigare negli abissi più o meno pericolosi del Deep Web (ma le acque del web di superficie sono poi così placide?) con il proprio PC, con installato Windows XP e ben pochi controlli di sicurezza e, soprattutto, un hard disk pieno di dati personali, immagini, PIN e password; ben altra cosa invece è farlo con lo stesso PC con istallato un sistema operativo come Linux Tails, che per impostazione predefinita non può accedere ad altro che alla memoria di RAM e progettato per lasciare meno tracce possibili sia localmente che remotamente

Ricapitolando, quant’è grande il pericolo reale dovuto all’esplorazione del Deep Web? Beh, non è una citazione, ma probabilmente monsieur Jacques de La Palice avrebbe detto: “dipende da cosa ci fai e da come lo fai”.

dw9

5 – Dopo il tour

Solitamente, dopo un tour attraverso il Deep Web (non sono diventato un vero cliente regolare, ma, a volte, ci ritorno per continuare la mia esplorazione), mi sento di buon umore.

Probabilmente ciò deriva dalla grafica abbastanza semplice e naif, con pochi banner, video o pop-up invasivi, molto comuni in parecchi siti di oggi del Surface Web. Potrebbe essere tutto collegato a una sorta di nostalgia delle atmosfere di film come Wargames – Giochi di Guerra o I signori della truffa, con i quali sono cresciuto e che, in qualche modo, vengono riportati alla memoria da tali pagine. Oppure, potrebbe essere semplicemente una conseguenza delle mie scelte, attraverso le quali limito l’esperienza ad un sottoinsieme appropriato di un contenitore che, come il suo corrispondente visibile, include il tutto e il suo contrario.

Al momento nessuno mi ha arrestato, il mio conto in banca ha ancora pochi soldi, proprio come prima, e nessuna task force speciale ha fatto irruzione nel mio appartamento. Ma in questo caso, forse, più che dal web o dalle politiche crittografiche, dipende tutto da una regola di base che ho letto da qualche parte e che diceva tipo: mantieni il cervello sempre acceso, tra il tuo schermo e la tua tastiera.

Toc, toc……..scusate, qualcuno sta bussando alla mia porta…devo andare…..


Nota

La trasposizione in data attuale (2017) del saggio del 2001 di BrightPlanet è approssimativa e deriva da questa semplice analisi: 4.4 EB = 2Mbytes/Pag*5*109Pag*400 (DW/SW ratio). Gradirei davvero ricevere commenti o osservazioni. Da notare che lo stesso BrightPlanet, all’interno del saggio, ha affermato: “È impossibile rispondere a tali domande ora che Internet è diventato un database in rapida espansione che può solo essere classificato come infinito. Perciò, quanto è grande il maggior database esistente? La risposta: ‘nessuno lo sa’”.