Articoli con tag classifiche

Dispositivo di occultamento: attivato

Sono decisamente sotto carico, spero più avanti di avere un po’ di tempo per pubblicare alcune delle cose a cui sto lavorando. Nel frattempo, faccio seguito a quanto anticipato qui e qui: ho attivato una piccola modifica che mi ha “nascosto” agli occhi di una certa classifica, infatti il mio sito su quella classifica risulta non aggiornato da un mese, mentre di aggiornamenti ve ne sono stati, dalla fine di agosto ad oggi.

Rimango ancora in classifica, ma i miei aggiornamenti non vi compaiono più, ed i miei link in uscita non vengono più rilevati.

Tenetelo bene a mente: i miei link non valgono più nulla per quella classifica. Continuano a valere per tutti i motori di ricerca, e per altre classifiche, fino a quando non mi stancherò anche di loro.

Tags: ,

Di classifiche e rantoli, parte II

Come promesso, ho iniziato ad indagare su come riprendere il controllo di come vengano usati i contenuti offerti in questo sito da innumerevoli “servizi di pubblica utilità”. Ho messo le virgolette perché ho la sensazione, ed alcuni fatti me ne danno ragione, che della pubblica utilità non gliene importi granché.

Il primo passo è stato di installare un sistema di rilevazione delle visite, che mi permette di scoprire chi, da dove e come accede al sito e soprattutto ai feed.

Ho appurato che molti visitatori automatizzati (crawler, robot e spider) non rispettano il contenuto del file robots.txt che, secondo le regole che dovrebbero rendere più civile la convivenza su Internet, dovrebbe indicare a questi visitatori automatizzati dove possono ficcare il naso e dove non possono. Certo, nessuno ne fa un obbligo, si tratta di autoregolarsi. Ma, visto appunto che le regole servono a chi non sa regolarsi, quando il totale disprezzo della proprietà altrui è evidente, si inizia a prendere provvedimenti forti.

Altro dato che per quanto mi riguarda è atteso, ma dovrebbe far saltare sulla sedia chi ignora le più elementari regole per la sicurezza del proprio sito/blog, è rappresentato dal numero di spider in cerca di rogne. In meno di venti ore di raccolta dei dati, su 495 crawler/spider che hanno visitato il sito, 192 contenevano nello User Agent la stringa “libwww-perl”. E il sistema colleziona solo chi accede a pagine “regolari” del sito, non cataloga ad esempio chi tenta di accedere alle pagine “private” (tipo quella di modifica dei temi, o quella di amministrazione, o a quella dei plugin), per cui il numero di accessi preludio ad una intrusione è molto più alto.

Per chi non ne fosse al corrente, gran parte dei mentecatti in cerca di siti da violare usa script fatti in Perl, un linguaggio nato con tutt’altro scopo. Quando uno script Perl accede ad un server web si identifica con quella stringa particolare, appunto “libwww-perl”.

I tentativi fatti da questi script vanno dalla semplice lettura del feed, al tentativo di leggere il file /etc/passwd, ad innumerevoli tentativi differenti di RFI. Ne ho già parlato, ed i principali bersagli sono plugin affetti da problemi di sicurezza.

Il passo successivo, sperimentale, è stato di aggiungere qualche riga al mio file .htaccess, queste per la precisione:


RewriteEngine  on
RewriteCond %{HTTP_USER_AGENT}   ^NomeSpider.*
RewriteRule .+   -   [F]

con il seguente effetto: se il sito viene visitato da qualcosa il cui user agent ha un identificativo che inizia con la stringa NomeSpider, il visitatore ottiene in risposta un 403-Forbidden al posto di qualsiasi pagina contenuta nel sito. In questo modo si chiude in faccia la porta in modo selettivo agli spider “maleducati”.

Naturalmente è una misura di poco valore, per il semplice fatto che un mentecatto competente può in pochi secondi cambiare la stringa identificativa del proprio spider, rendendo inefficace la misura, strategia che ho visto con i miei occhi in molti script “pronti per l’uso” reperiti in Rete per fare birbonate: in qualcuno lo user agent è una stringa casuale, in altri è scelto a caso fra stringhe di browser normali, quali Firefox, Konqueror, Internet Explorer, Safari e via così.

Lo stesso WordPress Autotest opera in questa maniera, per poter attirare in trappola il codice malevolo iniettato nei blog colpiti: si presenta con differenti user agent allo scopo di costringere il malware a rivelarsi.

In ogni caso la regola può essere fatta anche con l’indirizzo IP dello spider, e questo può essere molto più efficace: al visitatore non basta cambiare il proprio user agent, deve proprio cambiare punto di accesso alla Rete, cosa non proprio banale. Ma, sempre parlando di “libwww-perl”, gli indirizzi IP da cui provengono le scansioni sono quasi tutti di fornitori di accesso Internet a privati, tradotto: sono computer di “guidatori sopra la media” compromessi ed usati dal nostro amico mentecatto, o da un suo affine, sempre mentecatto. Quindi anche l’inserimento di un indirizzo IP è una misura poco efficace, se vogliamo contrastare un possibile attacco mirato a violare il sito. Rimane efficace per “educare” crawler e spider poco rispettosi, appartenenti a società sempre a caccia di informazioni di qualsiasi genere da rivendere.

Riguardo alle stranezze di una certa classifica, non sono l’unico ad avere delle perplessità.

Due parole ancora per spiegare meglio il mio punto di vista. Sulle classifiche ho cambiato idea, non ho nessun problema a dirlo. All’inizio pensavo che fossero uno strumento utile a far conoscere il proprio sito e soprattutto a raggiungere meglio i possibili interessati agli argomenti che tratto. A distanza di molto tempo (informaticamente parlando), il risultato è non solo deludente, ma è evidente il vantaggio di chi conosce i meccanismi della classifica (quale che sia) e di come si faccia di tutto per scalare posizioni usando tutti i trucchi possibili ed immaginabili per “dopare” la propria posizione. La responsabilità non è della classifica e di chi la gestisce, ma se di un responsabile avete bisogno, guardatevi allo specchio e chiedetevi se non sia ancora una volta il solito vizietto di voler fare i furbetti a tutti i costi per primeggiare con poca fatica.

Ritengo tutto ciò, nel mio specifico caso, lesivo della mia immagine e del mio lavoro. Per cui mi opporrò in ogni maniera ad essere incluso in classifiche che vengono abusate dagli stessi membri, al solo scopo di rimediare qualche click in più, in cambio di nulla.

Riferimenti

Tags: , , ,

Di classifiche, pagerank, rantoli e lamenti

I numeri. Dicono che non mentano.

Da gennaio 2007 a oggi il sito che leggete ha ricevuto ben 61, dico, 61 visite indirizzate da una nota classifica di blog italiani, su un totale di 129.000, 51.000 da referer. Dopo che nella settimana a cavallo fra dicembre 2007 e gennaio 2008 è circolato un ASCII-art con due bicchieri dove ogni “pixel” era un link ad un blog, le visite al sito sono aumentate da 1500 a oltre 2100 a settimana, in media. Oggi sono in media 2100-2500, sempre a settimana, tranne in questo periodo, notoriamente di stasi.

Per la diffusione di questo sito è stato infinitamente più efficace un post definito “spammatorio” che l’iscrizione a tre differenti classifiche di blog italiani. Le altre due classifiche hanno condotto qui rispettivamente 72 e 32 visite, sempre nello stesso periodo di 18 mesi. Technorati ne ha portate qui 40.

I numeri parlano molto chiaro: per le classifiche questo sito non vale niente (o quasi), quindi, secondo loro, se siete qui e leggete quello che scrivo state perdendo tempo prezioso.

Alt, fermi. Frenate gli spruzzi di adrenalina e le scariche di ormoni. Non sto dicendo che le classifiche sono inutili. Sto dicendo che per un sito come il mio sono non solo inutili, ma dannose. Ed il mio è un sito da poco. Chiaro?

I contenuti mi pare ci siano, ma sono molto di nicchia. Poi raramente parlo dei fatti miei, anzi, quasi mai. E’ abbastanza normale che il numero di visitatori sia così esiguo, e parimenti il numero di citazioni. Fra l’altro, visto che il famigerato e tenuto Pagerank si basa appunto sulle citazioni, anche questo parametro di valutazione si mantiene su valori piuttosto bassi.

Quello che mi fa molto pensare, ed in un certo senso mi porta a ritenere inutili nel mio caso certi strumenti, sono le continue manipolazioni manuali che vengono fatte agli algoritmi di calcolo del punteggio in classifica. Gli stessi che stilano la classifica dichiarano da più parti che periodicamente il sistema di calcolo della classifica viene rivisto e corretto. Ecco il motivo dei salti improvvisi: pagerank che crollano da 5 a 3 in 24 ore, 600 posizioni in meno in classifica nel giro di una settimana, cose così.

Naturalmente, se avessi toccato qualcosa nel sito, potrei sospettare di aver causato io stesso simili sconvolgimenti tellurici, ma dato che l’unica cosa fatta è pubblicare roba di mia produzione, la cosa è frustrante, a dirla tutta.

Per questo ho preso una decisione: farò in modo di “escludermi” dalle classifiche, in modi e tempi che devo studiare. Il motivo è molto semplice: pensando a queste cose perdo la concentrazione ed invece di occuparmi dei contenuti mi faccio il sangue amaro per cose su cui non solo non ho il controllo, ma neanche la chiave di lettura.

L’altra ragione, per cui ritengo lo strumento classifica stilato in questo modo pressoché inutile per il mio caso, è che non ne ricavo reali indicazioni sul gradimento di quello che offro ai lettori. E’ infinitamente più utile uno strumento come Google Analytics, che mi permette di vedere le cose più cercate, più lette, i tempi ed i modi di accesso al sito, se e quando vengono letti certi documenti, insomma una valutazione molto più granulare e, se vogliamo, impietosa rispetto ad una classifica. Se scrivo stupidaggini o cose inutili, la gente anche se arriva sul sito ci rimane ben poco.

Perché vi dico tutto questo? Non lo so. Sento il bisogno di dirlo a qualcuno, insomma. E poi chissà che qualcuno di voi che mi legge non abbia un suggerimento o una idea migliore. Io sono un po’ a corto, in effetti.

Tags: , ,