Cara Mengatur Berkas robots.txt
untuk Mengizinkan Akses Hanya ke Halaman Utama
Jika Anda pernah memiliki situs web, Anda tahu betapa pentingnya menjaga bagian tertentu dari sisi tersebut agar tersembunyi dari crawler web dan bot. Dalam postingan ini, kita akan membahas pertanyaan umum: Bagaimana Anda dapat mengonfigurasi berkas robots.txt
untuk hanya mengizinkan halaman utama default situs Anda sementara memblokir semua yang lainnya?
Memahami robots.txt
Berkas robots.txt
adalah standar yang digunakan oleh situs web untuk berkomunikasi dengan crawler dan spider web. Ini memungkinkan Anda untuk menentukan bagian mana dari situs Anda yang ingin Anda crawled dan diindeks oleh mesin pencari seperti Google, Bing, dan Yahoo, serta bagian mana yang ingin Anda simpan agar tidak dapat diakses.
Mengapa Menggunakan robots.txt
?
- Kontrol Akses: Mencegah crawler web mengakses halaman yang tidak penting.
- Meningkatkan SEO: Meningkatkan kinerja pencarian situs Anda dengan mengelola apa yang diindeks.
- Melindungi Konten: Menjauhkan konten yang sensitif atau tidak perlu dari paparan publik.
Dalam tutorial ini, kita akan fokus khusus pada bagaimana memastikan bahwa hanya halaman utama Anda yang dapat diakses oleh crawler, sementara halaman lain dan string kueri yang terkait diblokir.
Mengatur Berkas robots.txt
Anda
Untuk mengizinkan hanya halaman utama Anda dan memblokir semua URL lainnya, Anda ingin menggunakan satu set aturan tertentu dalam berkas robots.txt
Anda. Berikut ini adalah tampilan kode tersebut:
User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$
Penjelasan Kode
-
User-Agent: *
- Baris ini menetapkan bahwa aturan berlaku untuk semua crawler web. Asterisk (*) adalah simbol wildcard.
-
Disallow: /*
- Baris ini memberi tahu crawler untuk memblokir akses ke semua halaman di situs Anda.
-
Allow: /?okparam=
- Baris ini mengizinkan crawler untuk mengakses halaman utama jika string kueri menyertakan
okparam=true
.
- Baris ini mengizinkan crawler untuk mengakses halaman utama jika string kueri menyertakan
-
Allow: /$
- Tanda dolar ($) menunjukkan akhir dari URL, yang berarti bahwa akan mengizinkan halaman utama (
http://example.com
atauhttp://example.com/
) untuk diindeks.
- Tanda dolar ($) menunjukkan akhir dari URL, yang berarti bahwa akan mengizinkan halaman utama (
Contoh URL
-
Diizinkan:
http://example.com
http://example.com/?okparam=true
-
Diblokir:
http://example.com/anything
http://example.com/someendpoint.aspx
http://example.com?anythingbutokparam=true
Menyimpan Berkas robots.txt
Anda
- Buat berkas teks bernama
robots.txt
. - Salin dan tempel kode yang disediakan di atas ke dalam berkas teks.
- Unggah berkas ini ke direktori root situs web Anda.
Menguji Berkas robots.txt
Anda
Setelah Anda mengunggah berkas robots.txt
Anda, sangat penting untuk mengujinya agar memastikan semuanya berfungsi sesuai yang Anda inginkan.
- Gunakan alat seperti Google Search Console untuk melihat bagaimana berkas
robots.txt
situs Anda diinterpretasikan oleh Googlebot. - Lakukan penyesuaian jika diperlukan berdasarkan umpan balik pengujian.
Kesimpulan
Mengatur berkas robots.txt
dengan benar sangat penting untuk mengelola bagian mana dari situs Anda yang diindeks oleh mesin pencari. Dengan mengikuti langkah-langkah yang dijelaskan di atas, Anda akan berhasil mengizinkan crawler web untuk mengakses hanya halaman utama Anda sambil secara efektif memblokir semua halaman lainnya. Dengan kontrol ini, Anda dapat meningkatkan strategi SEO situs Anda sambil melindungi konten yang tidak relevan untuk pengindeksan publik.
Dengan menerapkan solusi sederhana ini, Anda dapat mengelola visibilitas situs web Anda di seluruh web dengan efisien. Selamat menjelajah!