Imi storc creierii de ceva timp sa fac in asa fel incat sa opresc botii de la yandex.com , folosindu-ma de robots.txt.Am incercat o multime de variante , insa botul tot apare pe site-ul meu si imi crawleaza non-stop.Daca va arat Raw Access-ul Log de la site o sa vedeti peste tot numai YandexBot YandexBot . Ideea este ca am probleme cu suprasolicitarea server-ului si banuiesc ca de aici vine problema.Nici Google nu crawleaza cat imi crawleaza botii de la motorul asta de cautare.
Tot ce am reusit sa fac pana acum a fost sa umblu in .htaccess si sa le raspund cu o eroare 403 atunci cand apar.As vrea sa nu mai vina deloc,insa am impresia ca acesti boti nu tin cont de fisierul robots.txt .
Asta am pus in .htaccess pentru boti:
Cod: Selectaţi tot
<Limit PUT DELETE>
order deny,allow
deny from all
</Limit>
<Files 403.shtml>
order allow,deny
allow from all
</Files>
SetEnvIfNoCase User-Agent .*Twiceler.* bad_bot
SetEnvIfNoCase User-Agent .*Java.* bad_bot
SetEnvIfNoCase User-Agent .*Sogou web spider.* bad_bot
SetEnvIfNoCase User-Agent .*YandexBot.* bad_bot
SetEnvIfNoCase User-Agent .*spbot.* bad_bot
SetEnvIfNoCase User-Agent .*Baiduspider.* bad_bot
SetEnvIfNoCase User-Agent .*libwww-perl.* bad_bot
SetEnvIfNoCase User-Agent .*DotBot.* bad_bot
SetEnvIfNoCase User-Agent .*MJ12bot.* bad_bot
SetEnvIfNoCase User-Agent .*Jakarta Commons.* bad_bot
SetEnvIfNoCase User-Agent .*Sosospider.* bad_bot
SetEnvIfNoCase User-Agent .*bixolabs.* bad_bot
SetEnvIfNoCase User-Agent .*ia_archiver.* bad_bot
SetEnvIfNoCase User-Agent .*GeoHasher.* bad_bot
SetEnvIfNoCase User-Agent .*Indy Library.* bad_bot
SetEnvIfNoCase User-Agent .*Yeti.* bad_bot
SetEnvIfNoCase User-Agent .*Mail.Ru.* bad_bot
SetEnvIfNoCase User-Agent .*LMQueueBot.* bad_bot
SetEnvIfNoCase User-Agent .*VoilaBot.* bad_bot
SetEnvIfNoCase User-Agent .*ScrapeBox.* bad_bot
SetEnvIfNoCase User-Agent .*Huaweisymantecspider.* bad_bot
SetEnvIfNoCase User-Agent .*larbin.* bad_bot
SetEnvIfNoCase User-Agent .*Nutch.* bad_bot
order allow,deny
deny from env=bad_bot
allow from all
Cod: Selectaţi tot
User-agent: Yandex
Disallow: /
User-agent: Yandex/1.01.001
Disallow: /
User-agent: YandexBot/3.0
Disallow: /
User-agent: YandexWebmaster/2.0
Disallow: /
User-agent: YandexVideo/3.0
Disallow: /
User-agent: YandexImages/3.0
Disallow: /
Banuiesc ca asta am reusit pentru ca in raw-ul meu gasesc ceva asemanator cu :
Cod: Selectaţi tot
178.154.243.98 - - [22/Dec/2012:04:41:24 +0200] "GET /colegul-meu-de-sala-e-o-maimuta/un-ingrijitor-inspaimantator-video_428ea1b57.html HTTP/1.1" 403 79 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
Credeti ca rezolv ceva cu un redirect? Am vazut pe diferite bloguri ca unii folosesc varianta asta. Rezolv ceva cu asta? Am un singur bot de la yandex care vine de pe ip-ul acesta: 178.154.243.98
Cod: Selectaţi tot
Options +FollowSymlinks
RewriteEngine on
RewriteCond %{REMOTE_HOST} 178\.154\.243\.98
RewriteRule \.shtml$ http://www.youtube.com/watch?v=oHg5SJYRHA0 [R=301,L]
Daca am bagat codul pentru a interzice accesul in tot directorul site-ului prin robots.txt, efectul este imediat ?