Banare bot yandex.com

Probleme, intrebari si subiecte legate de Server Apache, setari in fisier htaccess si Gazduire site-uri Web (Hosting).
Avatar utilizator
archemorus
Mesaje: 29

Banare bot yandex.com

Salutare baieti,

Imi storc creierii de ceva timp sa fac in asa fel incat sa opresc botii de la yandex.com , folosindu-ma de robots.txt.Am incercat o multime de variante , insa botul tot apare pe site-ul meu si imi crawleaza non-stop.Daca va arat Raw Access-ul Log de la site o sa vedeti peste tot numai YandexBot YandexBot . Ideea este ca am probleme cu suprasolicitarea server-ului si banuiesc ca de aici vine problema.Nici Google nu crawleaza cat imi crawleaza botii de la motorul asta de cautare.
Tot ce am reusit sa fac pana acum a fost sa umblu in .htaccess si sa le raspund cu o eroare 403 atunci cand apar.As vrea sa nu mai vina deloc,insa am impresia ca acesti boti nu tin cont de fisierul robots.txt .

Asta am pus in .htaccess pentru boti:

Cod: Selectaţi tot

<Limit PUT DELETE>
order deny,allow
deny from all
</Limit>

<Files 403.shtml>
order allow,deny
allow from all
</Files>

SetEnvIfNoCase User-Agent .*Twiceler.* bad_bot
SetEnvIfNoCase User-Agent .*Java.* bad_bot
SetEnvIfNoCase User-Agent .*Sogou web spider.* bad_bot
SetEnvIfNoCase User-Agent .*YandexBot.* bad_bot
SetEnvIfNoCase User-Agent .*spbot.* bad_bot
SetEnvIfNoCase User-Agent .*Baiduspider.* bad_bot
SetEnvIfNoCase User-Agent .*libwww-perl.* bad_bot
SetEnvIfNoCase User-Agent .*DotBot.* bad_bot
SetEnvIfNoCase User-Agent .*MJ12bot.* bad_bot
SetEnvIfNoCase User-Agent .*Jakarta Commons.* bad_bot
SetEnvIfNoCase User-Agent .*Sosospider.* bad_bot
SetEnvIfNoCase User-Agent .*bixolabs.* bad_bot
SetEnvIfNoCase User-Agent .*ia_archiver.* bad_bot
SetEnvIfNoCase User-Agent .*GeoHasher.* bad_bot
SetEnvIfNoCase User-Agent .*Indy Library.* bad_bot
SetEnvIfNoCase User-Agent .*Yeti.* bad_bot
SetEnvIfNoCase User-Agent .*Mail.Ru.* bad_bot
SetEnvIfNoCase User-Agent .*LMQueueBot.* bad_bot
SetEnvIfNoCase User-Agent .*VoilaBot.* bad_bot
SetEnvIfNoCase User-Agent .*ScrapeBox.* bad_bot
SetEnvIfNoCase User-Agent .*Huaweisymantecspider.* bad_bot
SetEnvIfNoCase User-Agent .*larbin.* bad_bot
SetEnvIfNoCase User-Agent .*Nutch.* bad_bot

order allow,deny
deny from env=bad_bot
allow from all
In robots.txt am facut urmatoarele incercari:

Cod: Selectaţi tot

User-agent: Yandex
Disallow: /

User-agent: Yandex/1.01.001
Disallow: /

User-agent: YandexBot/3.0
Disallow: /

User-agent: YandexWebmaster/2.0
Disallow: /

User-agent: YandexVideo/3.0
Disallow: /

User-agent: YandexImages/3.0
Disallow: /
Numai ca nu am reusit sa ajung la nici un rezultat prin robots.txt . Tot ce am reusit a fost prin .htaccess , sa le dau o eroare 403.
Banuiesc ca asta am reusit pentru ca in raw-ul meu gasesc ceva asemanator cu :

Cod: Selectaţi tot

178.154.243.98 - - [22/Dec/2012:04:41:24 +0200] "GET /colegul-meu-de-sala-e-o-maimuta/un-ingrijitor-inspaimantator-video_428ea1b57.html HTTP/1.1" 403 79 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
Any ideas? Mersi.

Credeti ca rezolv ceva cu un redirect? Am vazut pe diferite bloguri ca unii folosesc varianta asta. Rezolv ceva cu asta? Am un singur bot de la yandex care vine de pe ip-ul acesta: 178.154.243.98

Cod: Selectaţi tot

Options +FollowSymlinks
RewriteEngine on
RewriteCond %{REMOTE_HOST} 178\.154\.243\.98
RewriteRule \.shtml$ http://www.youtube.com/watch?v=oHg5SJYRHA0 [R=301,L]
Si o alta nelamurire. Cand un bot vine pe site sa crawleze (ma refer la un bot normal, care are intentii bune) , primul lucru pe care il face este sa verifice robots.txt? Sau verifica din cand in cand robots.txt?
Daca am bagat codul pentru a interzice accesul in tot directorul site-ului prin robots.txt, efectul este imediat ?
Have a nice day!
Desenele Copilariei http://www.desenele-copilariei.ro
Bancuri Haioase http://www.haiosul.ro

MarPlo
"robots.txt" e un simplu fisier text, nu are nici un efect daca bot-ul respectiv nu e setat sa il ia in considerare.
Nu e o regula stricta, de ne trecut. Cei care fac astfel de programe nu sunt obligati sa respecte astfel de lucruri, care sunt doar niste conveniente, nu trebuie sa te bazezi pe ele.
Daca ai reusit sa blochezi acel bot cu ".htaccess", e suficient.
Nu stiu sigur daca merge sau nu cu redirect, probabil ca da.

archemorus
Am inteles.
Da,am reusit sa il blochez din .htaccess . Am vazut in Log ca acum imi da ceva de genul "Access denied for IP-ul botului" atunci cand incearca sa se conecteze.Eu ii returnez botului o eroare 403.Nu sunt sigur insa daca acest lucru o sa imi afecteze pozitia in Google,ramane de vazut.
Mersi MarPlo.
Have a nice day!
Desenele Copilariei http://www.desenele-copilariei.ro
Bancuri Haioase http://www.haiosul.ro

alexl
Yandex este unul dintre crawlerii "cuminti", deci n-ar trebui sa cauzeze probleme. Yandex este search engine-ul principal din Rusia si nu cred ca ar trebui blocat (multi romani din Rep. Moldova folosesc Yandex).

In mod normal ar trebui sa respecte indicatiile din robots.txt, daca este corect construit. Incearca sa citesti documentatia bot-ului de pe site-ul lor, e destul de bine pusa la punct:
help.yandex.com/webmaster/controlling-robot/robots-txt.xml

In orice caz, trebuie sa tii cont ca preluarea robots.txt ar putea sa nu se faca la fiecare vizita - majoritatea crawlerilor pastreaza acest fisier intr-un cache si il actualizeaza doar periodic. Poate asta s-a intamplat si la tine. As zice sa incerci sa modifici Crawl-rate inainte sa iei masuri mai radicale :).