Robots.txt Nedir? Arama Motoru Tarayıcılarını Yönlendirme Dosyası
Robots.txt dosyası, web siteleri tarafından arama motoru tarayıcılarına (crawler'lara) hangi sayfaları tarayacakları ve dizine ekleyecekleri konusunda rehberlik etmek için kullanılan basit bir metin dosyasıdır. Bu dosya, arama motorlarının sitenizle nasıl etkileşim kuracağını kontrol etmek için hayati öneme sahiptir. Doğru yapılandırıldığında, sitenizin gereksiz veya hassas içeriğinin arama motorları tarafından dizine eklenmesini önleyebilir ve tarama bütçenizin (crawl budget) daha verimli kullanılmasını sağlayabilir.
Nasıl Çalışır?
- Tarayıcılar (Crawlers): Web tarayıcıları (örneğin Googlebot) bir web sitesini ziyaret ettiklerinde, ilk baktıkları yer robots.txt dosyasıdır. Bu dosyayı okuyarak hangi sayfalardan veya dizinlerden kaçınacaklarını veya hangilerini tarayacaklarını belirlerler.
- Konum: Robots.txt dosyası, web sitesinin kök dizininde bulunmalıdır (örn:
www.ornek.com/robots.txt
). Yanlış bir konumda olması, arama motorlarının onu bulamamasına ve yönergelerinizi göz ardı etmesine neden olur.
Temel Talimatlar:Robots.txt Nedir? Arama Motorlarıyla İletişim Sanatı
Web sitenizi büyük bir bina olarak hayal edin. Bu binanın halka açık sergi salonları, kütüphaneleri, herkese açık kafeteryası var. Ancak aynı zamanda özel ofisler, yönetim katı, arşiv odaları ve henüz ziyarete açılmamış tadilattaki bölümler de bulunuyor. Peki, binanıza gelen ziyaretçilerin (özellikle de Google gibi arama motoru botlarının) nerelere girip nerelere giremeyeceğini onlara nasıl söylersiniz?
İşte robots.txt dosyası tam olarak budur. Sitenizin ana dizininde bulunan ve arama motoru botlarına "hoş geldiniz, işte kurallarımız" diyen basit bir metin dosyasıdır. Bu dosya, Arama Motoru Hariç Tutma Protokolü'nü (Robots Exclusion Protocol - REP) kullanarak, botların sitenizin hangi bölümlerini tarayabileceğini veya taramaması gerektiğini belirten komutlar içerir.
Bu, teknik SEO çalışmalarının en temel ve en kritik adımlarından biridir. Arama motorlarıyla sağlıklı bir iletişim kurmanın ilk adımı, onlara net ve anlaşılır direktifler vermektir.
Robots.txt Dosyası Neden Bu Kadar Önemlidir?
Küçücük bir metin dosyasının bu kadar önemli olmasının birkaç stratejik sebebi vardır:
- Tarama Bütçesini (Crawl Budget) Yönetmek: Arama motorlarının sitenizi taramak için ayırdığı belirli bir kaynak ve zaman vardır. Buna "tarama bütçesi" denir. Sitenizde binlerce önemsiz sayfa (örneğin, site içi arama sonuç sayfaları, filtrelenmiş ürün sayfaları, yönetici giriş panelleri) varsa, botlar değerli zamanlarını bu sayfaları tarayarak boşa harcayabilir.
robots.txt
ile bu tür sayfaları tarama dışı bırakarak, botların enerjisini gerçekten önemli olan ana sayfalarınıza, ürünlerinize ve blog yazılarınıza odaklamasını sağlarsınız. - Sunucu Kaynaklarını Korumak: Yoğun bot trafiği, özellikle büyük veya zayıf sunuculara sahip sitelerde sunucuya aşırı yük bindirebilir ve sitenin yavaşlamasına neden olabilir.
robots.txt
, botların siteyi tarama hızını kontrol altına alarak (bazı botlar içinCrawl-delay
direktifi ile) sunucunuzu korumanıza yardımcı olabilir. - Özel ve Önemsiz Sayfaları Gizlemek: Henüz yayına hazır olmayan test sayfalarını, yönetici panellerini veya kullanıcıların görmesini istemediğiniz özel dizinleri arama motorlarından uzak tutar.
- Site Haritasını Göstermek: Botlara sitenizin haritasının nerede olduğunu doğrudan
robots.txt
dosyası içinden belirterek, önemli sayfalarınızın keşfedilmesini kolaylaştırırsınız.
Robots.txt Sözdizimi (Syntax): Botlarla Nasıl Konuşulur?
robots.txt
dosyası, belirli komutlarla çalışır. En yaygın kullanılan komutlar şunlardır:
User-agent
: Bu komut, hangi bota seslendiğinizi belirtir. Her botun kendi kimliği vardır (örneğin, Google içinGooglebot
, Bing içinBingbot
). Eğer tüm botlara aynı kuralı uygulamak isterseniz*
(yıldız) karakterini kullanırsınız.Disallow
: "Girmek Yasaktır" komutudur. Botların taramasını istemediğiniz URL'leri veya dizinleri belirtir.Allow
: "Girişe İzin Verildi" komutudur. GenellikleDisallow
ile engellenmiş bir dizinin içindeki belirli bir dosyaya veya alt klasöre erişim izni vermek için kullanılır.Sitemap
: Sitenizin XML site haritası dosyasının tam URL'sini belirtir.
Pratik Örnekler:
Örnek 1: Tüm botlara belirli bir klasörü engelleme
User-agent: *
Disallow: /yonetici-paneli/
Bu komut, tüm arama motoru botlarının www.siteadi.com/yonetici-paneli/
dizinini ve içindeki her şeyi taramasını engeller.
Örnek 2: Sadece Googlebot'a belirli bir dosyayı engelleme
User-agent: Googlebot
Disallow: /gizli-kampanya.html
Bu komut, sadece Googlebot'un gizli-kampanya.html
dosyasını taramasını engeller. Diğer botlar bu sayfayı tarayabilir.
Örnek 3: Bir klasörü engelleyip içindeki bir dosyaya izin verme
User-agent: *
Disallow: /medya/
Allow: /medya/logo.png
Bu komut, tüm botların /medya/
klasörünü taramasını engeller, ancak o klasörün içindeki logo.png
dosyasına erişmelerine izin verir.
Örnek 4: Site haritasını belirtme
User-agent: *
Disallow: /sepet/
Disallow: /hesabim/
Sitemap: https://www.siteadi.com/sitemap.xml
Bu komut, tüm botlara /sepet/
ve /hesabim/
dizinlerini taramamalarını söyler ve onlara sitenin haritasının nerede olduğunu gösterir.
En Kritik Ayrım: Robots.txt ile Engellemek ve noindex
ile Gizlemek
Bu, en çok karıştırılan ve en tehlikeli hatalara yol açabilen konudur.
robots.txt
ile bir sayfayıDisallow
komutuyla engellemek, Google'a "Bu sayfayı tarama" demektir. Bu, o sayfanın arama sonuçlarından kesin olarak çıkarılacağı anlamına gelmez. Eğer başka sitelerden veya sitenizin başka yerlerinden o engellenmiş sayfaya link varsa, Google o sayfayı taramadan da dizine ekleyebilir ve arama sonuçlarında sadece URL'sini gösterebilir.- Bir HTML sayfasının
<head>
bölümüne<meta name="robots" content="noindex">
etiketi eklemek ise, Google'a "Bu sayfayı dizine ekleme" demektir. Bu, sayfanın arama sonuçlarında görünmesini engellemenin en kesin ve en doğru yoludur.
Stratejik Kullanım: Eğer bir sayfanın arama sonuçlarında kesinlikle görünmesini istemiyorsanız, yapmanız gereken şudur:
- Sayfanın
robots.txt
tarafından engellenmediğinden emin olun (yani Google'ın sayfayı taramasına izin verin). - Sayfanın HTML koduna
noindex
etiketini ekleyin.Google botu sayfayı tarayacak,noindex
etiketini görecek ve onu dizinden çıkaracaktır. Bu, sitenizin index yönetiminin en önemli parçasıdır.
Robots.txt Dosyası Nasıl Oluşturulur ve Test Edilir?
Oluşturma:
- Not Defteri (Windows) veya TextEdit (Mac) gibi basit bir metin düzenleyici açın.
- Yukarıdaki sözdizimine uygun olarak direktiflerinizi yazın.
- Dosyayı
robots.txt
olarak (tümü küçük harf) kaydedin. - Bu dosyayı, web sitenizin ana dizinine (root directory) FTP veya cPanel aracılığıyla yükleyin. Dosyanız
https://www.siteadi.com/robots.txt
adresinden erişilebilir olmalıdır.
Test Etme:En güvenilir yol, Google Search Console'da bulunan "Robots.txt Test Aracı"nı kullanmaktır. Bu araç, dosyanızın içeriğini gösterir, varsa sözdizimi hatalarını belirtir ve belirli bir URL'nin dosyanız tarafından engellenip engellenmediğini test etmenize olanak tanır.
Sonuç: SEO'nun Temel Taşı
robots.txt
dosyası, basit bir metin dosyası gibi görünse de, bir web sitesinin arama motorlarıyla olan ilişkisinin temelini oluşturur. Doğru yapılandırıldığında, tarama bütçenizi optimize eder, sunucunuzu korur ve arama motorlarının enerjisini doğru sayfalara yönlendirerek genel SEO performansınızı artırır. Bu küçük ama güçlü dosya, sitenizin teknik sağlığının ve arama motorları tarafından doğru anlaşılmasının anahtarıdır.