Google, 25 Yaşındaki ‘robots.txt’ Protokolünü İnternet Standardı Yapmak İstiyor

smtdncr5 sene önce 0

1.12k

2dakikada okunabilir

Google’ın ana işi arama olmuştur ve şimdi bunun bir çekirdek bölümünü internet standardı haline getirmek istiyor.

İnternet devi, 25 yıl sonra robots.txt olarak bilinen – daha iyi robots.txt olarak bilinen robotlar hariç tutma protokolünü ( İnternet dışlama standardı) dönüştürmeyi planlıyor . Bu nedenle, Google ++ web tarayıcısının GitHub’da bulunan ve herkesin erişebilmesi için kullanabileceği C ++ robots.txt ayrıştırıcısını da kullandı.

Google, ” Web sitesi sahiplerine ve geliştiricilere , tarayıcıları nasıl kontrol edecekleri konusunda endişe etmek yerine internette şaşırtıcı deneyimler oluşturmalarına yardımcı olmak istedik ” dedi. “Protokolün asıl yazarı, webmasterları ve diğer arama motorlarıyla birlikte, REP’nin modern web’de nasıl kullanıldığını belgeledim ve IETF’e sunduk.”

REP, web arama motorlarının temel taşlarından biridir ve web sitesi sahiplerinin sunucu kaynaklarını daha kolay yönetmelerine yardımcı olur. Web tarayıcıları – Googlebot gibi – Google ve diğer arama motorlarının interneti yeni web sayfalarını keşfetmek ve bunları bilinen sayfalar listesine eklemek için düzenli olarak taramasıdır

Tarayıcılar ayrıca web sayfalarını periyodik olarak toplamak ve arşivlemek için Wayback Machine gibi siteler tarafından da kullanılır ve belirli web sitelerinden gelen verileri analitik amaçlar için kazıma amacıyla tasarlanabilir.

To help developers create parsers that reflect the Robots Exclusion Protocol requirements, we’re releasing our robots.txt parser as open source!
Updated to cover all corner cases, the parser ensures that Googlebot only crawls what it’s allowed to.https://t.co/NmbLRzDkHF
— Google Webmasters (@googlewmc) July 1, 2019

Bir web sitesinin robots.txt dosyası, otomatik olarak tarayıcılara, hangi içeriğin taranacağı ve neyin hariç tutulacağı hakkında bilgi verir, böylece gereksiz sayfaların dizine alınmasını ve sunulmasını en aza indirir. Ayrıca, tarayıcıların belirli klasörlerde depolanan gizli bilgileri ziyaret etmesini yasaklayabilir ve bu dosyaların diğer arama motorları tarafından endekslenmesini önleyebilir.

Google, robots.txt dosyasını deşifre etmek için kullanılan ayrıştırıcıyı açık bir şekilde kullanarak, kurallar oluşturmak ve ayrıştırmak için standartlaştırılmış bir sözdizimi oluşturarak tüm karışıklıkları gidermeyi amaçlamaktadır.

Google bir blog yazısında “Bu, web sitesi sahipleri için zor bir problem çünkü belirsiz fiili standart kuralları doğru yazmayı zorlaştırdı” dedi.

Kütüphanenin, geliştiricilerin “Google’ın robots.txt ayrıştırma ve eşleştirmesini daha iyi yansıtan” kendi ayrıştırıcılarını oluşturmalarına yardımcı olacağını belirtti.

Robots.txt standardı şu anda taslak aşamasındadır ve Google, geliştiricilerden geri bildirim istedi. Standart, web içerik oluşturucularının “Googlebot’a ne kadar bilgi sağlamak istediklerini ve uzantı olarak Arama’da görünmeye uygun olduklarını” belirttikçe değiştirilecektir.

Bir Cevap Yaz