7
2008
Robots.txt nedir? Robots.txt Dosya Formatı
Robots.txt nedir? Robots.txt Dosya Formatı
Çoğu web geliştirici ve web tasarımcı arama motoru robotları ve robots.txt hakkında fazla bilgiye (belki de hiç) sahip değildir. Arama motoru robotları web sitelerini ziyaret eden, bir sayfayı okuduktan sonra sayfada bulduğu önce iç sonra da dış linklere ziyarette bulunan yazılımlardır. Buldukları ve okudukları sayfaları ait oldukları arama motorunun veritabanına kaydederler.
Bir arama motoru robotu sitenizi ziyaret ettiğinde arayacağı ilk şey “robots.txt” dosyasıdır. Bu dosya sitenin ana dizininde olmalıdır. Dosya adının küçük harflerden oluşmasına dikkat edin. *nix (Unix, Linux) sistemler dosya adlarında büyük-küçük harf duyarlıdır.
Örnek: http://www.siteniz.com/robots.txt
Bu dosya arama robotuna hangi sayfaları gezmesi ya da gezmemesi gerektiğini söylemek için kullanılır. Bu sisteme “Robotları Uzak Tutma Standardı” denir. (The robots exclusion standard)
Robots.txt dosya formatı
robots.txt dosya formatı basit olmakla beraber özel bir formattır. “User-agent:” ve onu takip eden “Disallow:” satırlarından oluşur.
“User-agent:” satırı arama robot adına işaret eder. * kullanılarak tüm arama motor robotlarına referans verilebilir.
İşte birkaç örnek:
Tüm arama motorlarını web sitenizin belli bir dizininden uzak tutmak için:
User-agent: *
Disallow: /cgi-bin/
* tüm arama motorlarını ifade etmekte, /cgi-bin/ ise arama motor robotu tarafından gezilmesini istemediğiniz dizini belirtmektedir. Bu dizin altında başka dizinler varsa onlar da gezilmeyecektir.
Sadece belli bir arama motor robotunu engellemek için ise :
User-agent: googlebot
Disallow: /cgi-bin/
Burada ise sadece google arama robotunun cgi-bin dizinini ziyaret etmesi engellenmektedir.
Boşluk ve Yorumlar (Comment)
Dosya içine boşluk bırakılabilir ve yorum eklenebilir. Bazı robotlar aynı satırda hem komut hem de yorum olduğunda şaşırabileceğinden (robotlar çok akıllı olmadığından) yorumlar ayrı satırlara yazılmalıdır. Yani;
User-agent: googlebot #Google Robot
yerine
User-agent: googlebot
#Google Robot
kullanmak daha akıllıca olur
Yorum satırları # karakteri ile başlar. Robot bu karakteri gördüğü zaman saturun geri kalanını gözardı eder ve diğer satıra geçer.
Boşluk, dosya içinde kelimeler arasındaki boşlukları (klavyedeki uzun çubuğa basarak eklenir :)) ve boş satırları ifade etmektedir. Komutların bulunduğu satırların başlangıç kısmında boşluk olmaması gerekir.
Yaygın Robot Adları
İşte internetteki en büyük arama motorlarına ait arama robotlarının (örümcek, sürüngen de denir ama biz robotu tercih ediyoruz) adları:
Googlebot � Google.com
Inktomi Slurp � HotBot.com
IA Archiver � Alexa
AskJeeves � AskJeeves.com
Örnekler:
Aşağıdaki örnek robotlara tüm sayfaları ziyaret edebileceğini ifade eder.
User-agent: *
Disallow:
Aşağıdaki örnek ise robotlara hiçbirşeyi okumamalarını hiçbir sayfayı arama motoruna eklememelerini söyler.
User-agent: *
Disallow: /
Aşağıdaki örnek ise tüm robotlara cgi-bin,images ve downloads dizinlerinden ve admin.php sayfasından uzak durmalarını söyler.
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /downloads/
Disallow: admin.php
Robots.txt hakkında daha fazla bilgi
Robots.txt dosyaları hakkında daha fazla bilgi robotstxt.org sitesinde bulunabilir. Robots.txt kullanımı mecburi olmamakla beraber, kullanılmasının arama motorlarında üst sıralarda çıkmada etkin olduğu görüşü hakimdir.
Benzer Püf Noktaları
Yorumunu Bırak !
Facebook Hayran Sayfamız
En Çok Okunan Yazılar
- Tırnak Bakımının Püf Noktaları Nelerdir ? (58768)
- Google'ın Püf Noktaları (48221)
- Halı Temizliğinde Püf Noktalar: (38126)
- Smf Güvenlik için Püf noktalar.. (32990)
- Pc Soğutma'nın Püf Noktası (26270)
- Tantuni Lavaşı Nasıl Yapılır (25943)
- Ervamatin Nedir ? (25145)
- En Çok Radyasyon Yayan Telefonlar..! (25144)
- Kek Yapmanın Püf Noktaları! (24059)
- Tantuni Nedir Nasıl Yapılır (22343)

Yazar:





