Stavo cercando un paper presentato a HotSec ‘07, ho inserito il titolo in Google e tra i risultati c’era

Google1

Provo a scaricare la versione PDF e viene  fuori il form per l’autenticazione poiché i paper su Usenix sono disponibili solo per gli associati (diventano disponibili a  tutti solo dopo un anno dalla presentazione):

Usenix1

Provo dunque l’opzione “Versione HTML” di Google… e a sorpresa

Google2
e poco più sotto l’intero paper

Google3

La domanda è: ma come fa Google? Suggerimenti, link?

http://www.flickr.com/photos/jamelah/6797247/

L’accesso a dati non protetti non è riconducibile ad un accesso non autorizzato… lo dice una sentenza di una corte della Pennsylvania (maggiori informazioni qui).

In pratica il giudice non ha rilevato da parte dell’attaccante nessuna violazione di eventuali protezioni (che erano effettivamente assenti o malfunzionanti) dei dati. Più precisamente l’accesso ai dati attraverso gli archivi dei motori di ricerca non prefigura una violazione delle leggi sul diritto d’autore e delle leggi anti-hacking. Nel caso in questione alcuni dati sensibili erano finiti per sbaglio (e in effetti in pochi sanno minimamente come funziona l’indicizzazione dei motori di ricerca) negli archivi di un motore di ricerca e da questa cache erano stati prelevati dall’attacker che secondo il giudice non è colpevole poiché i dati non erano stati protetti, e quindi inconsapevolmente resi pubblici, dal legittimo proprietario.

La lezione è: bisogna stare attenti a cosa si mette nel file robot.txt, ovvero a cosa si permette al motore di ricerca di archiviare e indicizzare.
O anche: se metti a disposizione dei motori di ricerca dei dati sensibili e io me li prendo il problema è solo tuo…