robots.txt协议
robots.txt是一个纯文本文件,用于声明该网站中不想被蜘蛛访问的部分,或者指定蜘蛛抓取的部分
robots.txt不是规定,而是一种约定,需要蜘蛛自觉遵守的一种习俗
 
网站针对蜘蛛设的指示牌是robots.txt;当蜘蛛访问一个站点时,它会首先检查该站点是否存在robots.txt
如果找到,蜘蛛就会按照该文件中的内容来确定抓取的范围
如果该文件不存在,那么蜘蛛就沿着链接直接抓取
 
robots.txt的作用
防止私密或重要内容被搜索引擎抓取
节省服务器资源,从而提高服务质量
减少重复抓取,提高网站质量
指定sitemap文件位置