Robots.txt terkait sangat erat dengan suksesnya sebuah
strategi SEO. Dengan menggunakan file robots.txt, bot mesin pencari dapat
berinteraksi secara lebih baik dengan website yang Anda kelola. Untuk
memahami apa dan bagaimana robots.txt, kita akan membahasnya satu persatu pada
artikel ini.
Apa itu robots.txt?
Secara sederhana robots.txt adalah rangkaian file berbentuk
text yang berisi instruksi kepada mesin pencari seperti Google. Dengan
memberikan robots.txt pada website maka website akan
memberikan tanda kepada Google ke mana saja akses yang harus dilakukan dan
halaman mana saja yang perlu diindeks.
Oleh karena itu, robots.txt akan membuat artikel website lebih
mudah dan lebih cepat diindeks di mesin pencari seperti Google. Sehingga,
peringkat halaman artikel Anda akan lebih cepat naik di halaman hasil pencarian
Google. Robots.txt juga dapat memisahkan halaman yang tidak ingin Anda
tampilkan di dalam mesin pencari. Fungsi lain dari file ini juga untuk
menghalangi beberapa mesin pencari melakukan crawl ke website Anda
sehingga beban website akan tetap terjaga.
File robots.txt terletak di dalam folder root server penyimpanan
situs yang biasa disebut sebagai folder public_html. Namun file ini adalah file
virtual yang tidak dapat diakses ataupun diganti melalui direktori manapun.
Sehingga, ketika Anda ingin memperbarui file ini, Anda harus membuat sendiri
file robots.txt yang diletakan di dalam folder public_html dan memasukan skrip
konfigurasi secara manual.
Konfigurasi robots.txt
Konfigurasi robots.txt termasuk cukup sederhana karena hanya
berisi beberapa instruksi saja. Berikut ini adalah contoh konfigurasi file
robots.txt.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
User-agent: Bingbot
Diasallow: /
Kode robot.txt diawali dengan teks user-agent: * dan
diikuti oleh kode dari bot yang akan menunjukan dan menerapkan pengaturan website.
Tanda bintang (*) setelah teks user_agent dapat diartikan sebagai pengaturan
universal
Misalkan Anda ingin menambahkan atau mengizinkan beberapa
mesin pencari untuk melakukan crawl, Anda cukup menambahkan beberapa baris
skrip seperti di bawah ini.
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: www.area27b.net/sitemap.xml
User-agent adalah instruksi yang digunakan untuk
mendeskripsikan rule jenis/nama robot. Allow untuk menambahkan bagian
mana yang dapat diakses oleh robot, dan disallow untuk
mendeskripsikan bagian yang tidak boleh diakses oleh robot. Jika tidak terdapat
skrip disallow: maka mesin pencari dapat memindai keseluruhan
isi website.
Dengan menggunakan skrip diatas, Anda akan mengarahkan mesin
pencari untuk memindai isi dari sebuah website. Sebagai contoh, jika website yang
Anda kelola memiliki beberapa image yang tidak ingin terbaca oleh Google maka
Anda dapat membuat skrip disallow: /images/ (disallow folder images)
untuk memberikan instruksi kepada Google agar tidak memindai gambar tersebut.
- Disallow: [Setidaknya satu atau beberapa entri Disallow atau Allow per
aturan] Direktori atau halaman, yang terkait dengan domain root, yang tidak
ingin di-crawl agen pengguna. Jika aturan mengacu pada halaman, nama tersebut
harus berupa nama halaman lengkap seperti yang ditampilkan di browser; jika
merujuk ke direktori, seharusnya diakhiri dengan tanda /.
- Allow: [Minimal satu atau beberapa entri Disallow atau Allow per
aturan] Direktori atau halaman, yang terkait dengan domain root, yang mungkin
di-crawl oleh agen pengguna sebagaimana disebutkan di artikel bantuan ini. Ini
digunakan untuk mengganti perintah Disallow guna mengizinkan crawling
subdirektori atau halaman dalam direktori yang tidak diizinkan. Untuk satu
halaman, nama halaman lengkap seperti yang ditampilkan di browser harus
ditentukan. Untuk direktori, aturan harus diakhiri dengan tanda /.
- Sitemap: [Opsional, nol atau lebih per file] Lokasi
peta situs untuk situs ini. URL peta situs harus berupa URL yang sepenuhnya
memenuhi syarat; Google tidak menganggap atau memeriksa alternatif
http/https/www.non-www. Peta situs adalah cara yang tepat untuk menunjukkan
konten mana yang boleh di-crawl oleh Google, bukan konten mana
yang dapat atau tidak dapat di-crawl. Contoh:
Sitemap: https://example.com/sitemap.xml
Sitemap: http://www.example.com/sitemap.xml
Semua perintah, kecuali sitemap, mendukung karakter
pengganti * untuk awalan jalur akhiran, atau string secara
keseluruhan.
Baris yang tidak cocok dengan perintah ini akan diabaikan.
Contoh file lainnya
File robots.txt terdiri dari satu atau beberapa grup, yang
masing-masing diawali dengan baris User-agent yang menentukan target
dari grup tersebut. Berikut adalah sebuah file dengan dua grup; komentar inline
menjelaskan setiap grup:
# Block googlebot from example.com/directory1/... and
example.com/directory2/...
# but allow access to directory2/subdirectory1/...
# All other directories on the site are allowed by default.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/
# Block the entire site from anothercrawler.
User-agent: anothercrawler
Disallow: /
Harap baca seluruh dokumentasi tersebut karena ada beberapa
hal rumit dan penting untuk dipelajari pada sintaksis robots.txt.