Robots.txt
Robots.txt Nedir? Arama Motoru Tarayıcılarını Yönlendirme Dosyası
Robots.txt dosyası, web siteleri tarafından arama motoru tarayıcılarına (crawler'lara) hangi sayfaları tarayacakları ve dizine ekleyecekleri konusunda rehberlik etmek için kullanılan basit bir metin dosyasıdır. Bu dosya, arama motorlarının sitenizle nasıl etkileşim kuracağını kontrol etmek için hayati öneme sahiptir. Doğru yapılandırıldığında, sitenizin gereksiz veya hassas içeriğinin arama motorları tarafından dizine eklenmesini önleyebilir ve tarama bütçenizin (crawl budget) daha verimli kullanılmasını sağlayabilir.
Nasıl Çalışır?
- Tarayıcılar (Crawlers): Web tarayıcıları (örneğin Googlebot) bir web sitesini ziyaret ettiklerinde, ilk baktıkları yer robots.txt dosyasıdır. Bu dosyayı okuyarak hangi sayfalardan veya dizinlerden kaçınacaklarını veya hangilerini tarayacaklarını belirlerler.
- Konum: Robots.txt dosyası, web sitesinin kök dizininde bulunmalıdır (örn:
www.ornek.com/robots.txt
). Yanlış bir konumda olması, arama motorlarının onu bulamamasına ve yönergelerinizi göz ardı etmesine neden olur.
Temel Talimatlar:
Robots.txt dosyası, genellikle belirli kuralları belirten birkaç ana yönerge içerir:
- Disallow: Tarayıcıların belirli sayfaları veya dizinleri ziyaret etmesini engeller. Bu, hassas bilgileri (yönetici paneli, kullanıcı verileri) veya arama sonuçlarında görünmesini istemediğiniz içeriği (teşekkür sayfaları, test sayfaları) gizlemek için kullanılır.
- Allow: Bir
Disallow
yönergesinin bulunduğu bir dizin içinde bile belirli bir sayfaya veya dosyaya tarayıcıların erişmesine izin verir. Örneğin, tüm bir dizini engellemek isteyip, o dizindeki belirli bir PDF dosyasına erişime izin verebilirsiniz. - User-agent: Kuralın hangi arama motoru tarayıcısına (örneğin
Googlebot
,Bingbot
,*
tüm tarayıcılar için) uygulandığını belirtir. Farklı tarayıcılar için farklı kurallar tanımlayabilirsiniz. - Sitemap: Tarayıcılara web sitesinin site haritasının (sitemap) konumunu bildirir. Site haritası, arama motorlarının sitenizdeki tüm önemli sayfaları keşfetmesine yardımcı olur.
Robots.txt Neden Önemlidir?
- Tarama Bütçesi Yönetimi: Büyük sitelerde, arama motorlarının sitenizi taramak için belirli bir "tarama bütçesi" vardır. Robots.txt ile önemsiz sayfaları engellemek, arama motorlarının bu bütçeyi daha değerli sayfalarınıza harcamasını sağlar.
- Hassas İçeriği Engelleme: Yönetici panelleri, test sayfaları, kullanıcı profilleri veya özel belgeler gibi arama motoru dizininde yer almasını istemediğiniz içeriği gizler.
- Yinelenen İçeriği Önleme: Bazı durumlarda, yinelenen içeriğin arama motorları tarafından dizine eklenmesini önlemeye yardımcı olabilir (ancak canonical etiketleri bu konuda daha etkilidir).
- Sunucu Yükünü Azaltma: Özellikle büyük sitelerde, botların gereksiz sayfaları taramasını engelleyerek sunucu üzerindeki yükü azaltır.
Dikkat Edilmesi Gerekenler:
- Robots.txt bir güvenlik aracı değildir. Engellediğiniz sayfaların URL'leri biliniyorsa, doğrudan erişilebilir olabilirler. Hassas bilgiler için dizin şifrelemesi veya diğer güvenlik önlemleri kullanılmalıdır.
- Bir sayfayı robots.txt ile engellemek, o sayfanın arama sonuçlarında görünmeyeceği anlamına gelmez. Sayfaya başka bir yerden (örneğin başka bir web sitesi) bir bağlantı geliyorsa, arama motoru yine de onu dizine ekleyebilir, ancak içeriğini tarayamaz. Bir sayfanın arama sonuçlarında görünmesini tamamen engellemek için
noindex
meta etiketi veyaX-Robots-Tag
HTTP başlığı kullanılmalıdır.
Örnek:
Aşağıdaki robots.txt dosyası örneği, nasıl çalıştığını göstermektedir:
Plaintext
User-agent: *
Disallow: /ozel/
Allow: /genel/
Sitemap: https://www.ornek.com/sitemap.xml
Bu dosya şunları belirtir:
User-agent: *
: Bu kurallar tüm arama motoru tarayıcıları için geçerlidir.Disallow: /ozel/
:/ozel/
dizinindeki tüm sayfaların taranmasını engeller. Yani, arama motorlarıornek.com/ozel/
altındaki hiçbir sayfaya erişemez.Allow: /genel/
: Eğer/genel/
dizini,/ozel/
gibi daha geniş bir engelleme kuralının altındaysa veya spesifik bir izin gerekiyorsa kullanılır. Örneğin,/uploads/
diziniDisallow
edilmişken,/uploads/public/
içindeki bir dosyaAllow
ile belirtilebilir. Bu örnekte/genel/
zaten varsayılan olarak taranabilir olduğu için bu satır daha çok birDisallow
kuralı içindeki istisnalar için anlamlıdır.Sitemap: https://www.ornek.com/sitemap.xml
: Arama motorlarına web sitesinin site haritasının konumunu söyler. Bu, tüm önemli sayfaların kolayca keşfedilmesini sağlar.
Robots.txt dosyası, SEO stratejinizin önemli bir parçasıdır ve sitenizin arama motorlarıyla etkileşimini doğru bir şekilde yönetmek için dikkatlice yapılandırılmalıdır.