Yanlış yapılandırılmış bir robots.txt, tek satırda
tüm sitenizi Google indeksinden çıkarabilir. İyi ayarlanmış bir tane ise tarama
bütçesi tasarrufu sağlar, gürültülü URL'leri gizler ve tarayıcıları sitemap'inize
yönlendirir. Bu rehberde format, gerçekten kullanacağınız kurallar ve
denetimlerimizde haftalık gördüğümüz hatalar var.
robots.txt nedir (ve ne değildir)
robots.txt, etki alanınızın /robots.txt yolundaki
düz metin dosyasıdır. Tarayıcılara hangi URL'leri isteyip isteyemeyeceğini
söyler. Bir güvenlik mekanizması değildir: engellediğiniz her
şey hâlâ herkese açıktır, yalnızca taranmaz. Ve sayfaları indeksten kaldırmaz:
zaten kendisine bağlantı verilmiş, engellenmiş bir sayfa hâlâ arama sonuçlarında
(snippet'siz) görünebilir. Sayfa kaldırmak için noindex kullanın
veya tamamen silin.
Format 60 saniyede
User-agent: *
Disallow: /admin/
Disallow: /cart
Allow: /admin/help.html
Sitemap: https://example.com/sitemap.xml
- User-agent: bloğun hangi tarayıcıya uygulanacağı.
*herkes demek. Belirli bir adı (Googlebot,Bingbot,GPTBot) yazarak tek tarayıcıyı hedefleyin. - Disallow: tarayıcının istememesi gereken yollar. Yol
önek eşleşmesi, büyük/küçük harf duyarlı.
Disallow: /her şeyi engeller;Disallow:(boş) her şeye izin verir. - Allow: daha spesifik bir yol için Disallow'u geçersiz kılar. Geniş bloklarda delik açmak için kullanışlı.
- Sitemap: sitemap'inizin mutlak URL'si. Birden fazla
Sitemap:satırı yazabilirsiniz.
Gerçekten kullanacağınız tarifler
Standart e-ticaret
User-agent: *
Disallow: /cart
Disallow: /checkout
Disallow: /account
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /*?utm_
Sitemap: https://example.com/sitemap.xml
Staging'i tüm tarayıcılara kapat
User-agent: *
Disallow: /
Daha iyisi, staging sunucusundan X-Robots-Tag: noindex başlığı
döndürün ve şifreyle koruyun. Robots.txt tavsiyedir, kötü botlar görmezden
gelir. (Ayrıca: bu dosyanın canlıya gitmesine asla izin vermeyin. Gördük.)
Googlebot'a izin ver, AI eğitim tarayıcılarını engelle
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: *
Disallow:
En sık gördüğümüz hatalar
- CSS veya JS engellemek. Google, mobil uyumluluk ve Core
Web Vitals'i değerlendirmek için sayfanızı oluşturmak zorundadır.
Disallow: /assets/neredeyse her zaman yanlıştır. - Aynı URL'de Disallow + noindex. Bir sayfa engellenmişse
Google,
noindex'i görmek için onu tarayamaz. Sayfa hâlâ arama sonuçlarında çıkabilir. Sayfa kaldırmak için yalnızcanoindexkullanın (ve taranmasına izin verin). - Trailing slash karışıklığı.
Disallow: /admin;/admin,/admin/,/admin-toolsve/administrator'ı engeller. Yalnızca dizini istiyorsanızDisallow: /admin/yazın. - Wildcard yanlış kullanımı. Sadece
*(herhangi bir sıra) ve$(URL sonu) desteklenir.Disallow: /*.pdf$tüm PDF'leri engeller. - Sitemap direktifini unutmak. Sitemap'inizi her tarayıcıya duyurmanın en ucuz yoludur. Bkz. XML sitemap rehberimiz.
- Büyük/küçük harf.
Disallow: /Admin/,/admin/'i engellemez. Direktiflerdeki URL'ler harf duyarlıdır.
Yayınlamadan önce test
- Search Console robots.txt Tester: dosyanızı yapıştırıp belirli URL'leri belirli user-agent'larla test edin.
- Curl:
curl -I https://example.com/robots.txtçıktısı200 OKveContent-Type: text/plaindöndürmelidir. - Her değişiklikten sonra kendi sitenizi tarayın (örn. Screaming Frog) ve doğru sayfaların hâlâ erişilebilir olduğunu doğrulayın.
Son bir şey: bütçe
~10 bin URL altındaki siteler için tarama bütçesi nadiren darboğazdır -
içerik kalitesi ve linkler önemlidir. Daha büyük sitelerde Googlebot'un
faceted navigasyon veya session ID'lerinde harcadığı her URL, gerçek içeriğe
harcamadığı bir URL'dir. robots.txt'iniz bunu düzeltmek için
elinizdeki en ucuz koldur.
AuditAI taraması başlat → ve sitenizin tarayıcıya şu an nasıl göründüğünü, tespit ettiğimiz robots.txt sorunları dahil görün.