Algoritmi per reti






Ottalogo per il progetto, le regole da seguire per svolgere lo spider.

Nota: Il non attenersi a queste regole può comportare l'esclusione dal corso, in tempi peggiori sareste stati spediti all'inferno.






Alcuni riferimenti utili

Per la parte relativa al protocollo HTTP si veda

http://www.w3.org/Protocols/


Ad esempio, riguardo all'"User-Agent", si veda http://www.w3.org/Protocols/HTTP/HTRQ_Headers.html#user-agent che definisce il formato standard per tale header.


Per la parte relativa all'esclusione di pagine si veda

http://www.robotstxt.org/


In particolare, per il "Robots Exclusion Protocol" e le "Robots META tag" si veda http://www.robotstxt.org/wc/exclusion.html che contiene le specifiche sul formato del file robots.txt e degli elementi META.