Web Crawler Bots Robots.txt Googlebot Slurp

Cara Mengatur Berkas `robots.txt` untuk Mengizinkan Akses Hanya ke Halaman Utama

Jika Anda pernah memiliki situs web, Anda tahu betapa pentingnya menjaga bagian tertentu dari sisi tersebut agar tersembunyi dari crawler web dan bot. Dalam postingan ini, kita akan membahas pertanyaan umum: Bagaimana Anda dapat mengonfigurasi berkas robots.txt untuk hanya mengizinkan halaman utama default situs Anda sementara memblokir semua yang lainnya?

Memahami `robots.txt`

Berkas robots.txt adalah standar yang digunakan oleh situs web untuk berkomunikasi dengan crawler dan spider web. Ini memungkinkan Anda untuk menentukan bagian mana dari situs Anda yang ingin Anda crawled dan diindeks oleh mesin pencari seperti Google, Bing, dan Yahoo, serta bagian mana yang ingin Anda simpan agar tidak dapat diakses.

Mengapa Menggunakan `robots.txt`?

Kontrol Akses: Mencegah crawler web mengakses halaman yang tidak penting.
Meningkatkan SEO: Meningkatkan kinerja pencarian situs Anda dengan mengelola apa yang diindeks.
Melindungi Konten: Menjauhkan konten yang sensitif atau tidak perlu dari paparan publik.

Dalam tutorial ini, kita akan fokus khusus pada bagaimana memastikan bahwa hanya halaman utama Anda yang dapat diakses oleh crawler, sementara halaman lain dan string kueri yang terkait diblokir.

Mengatur Berkas `robots.txt` Anda

Untuk mengizinkan hanya halaman utama Anda dan memblokir semua URL lainnya, Anda ingin menggunakan satu set aturan tertentu dalam berkas robots.txt Anda. Berikut ini adalah tampilan kode tersebut:

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

Penjelasan Kode

User-Agent: *
- Baris ini menetapkan bahwa aturan berlaku untuk semua crawler web. Asterisk (*) adalah simbol wildcard.
Disallow: /*
- Baris ini memberi tahu crawler untuk memblokir akses ke semua halaman di situs Anda.
Allow: /?okparam=
- Baris ini mengizinkan crawler untuk mengakses halaman utama jika string kueri menyertakan okparam=true.
Allow: /$
- Tanda dolar ($) menunjukkan akhir dari URL, yang berarti bahwa akan mengizinkan halaman utama (http://example.com atau http://example.com/) untuk diindeks.

Contoh URL

Diizinkan:
- http://example.com
- http://example.com/?okparam=true
Diblokir:
- http://example.com/anything
- http://example.com/someendpoint.aspx
- http://example.com?anythingbutokparam=true

Menyimpan Berkas `robots.txt` Anda

Buat berkas teks bernama robots.txt.
Salin dan tempel kode yang disediakan di atas ke dalam berkas teks.
Unggah berkas ini ke direktori root situs web Anda.

Menguji Berkas `robots.txt` Anda

Setelah Anda mengunggah berkas robots.txt Anda, sangat penting untuk mengujinya agar memastikan semuanya berfungsi sesuai yang Anda inginkan.

Gunakan alat seperti Google Search Console untuk melihat bagaimana berkas robots.txt situs Anda diinterpretasikan oleh Googlebot.
Lakukan penyesuaian jika diperlukan berdasarkan umpan balik pengujian.

Kesimpulan

Mengatur berkas robots.txt dengan benar sangat penting untuk mengelola bagian mana dari situs Anda yang diindeks oleh mesin pencari. Dengan mengikuti langkah-langkah yang dijelaskan di atas, Anda akan berhasil mengizinkan crawler web untuk mengakses hanya halaman utama Anda sambil secara efektif memblokir semua halaman lainnya. Dengan kontrol ini, Anda dapat meningkatkan strategi SEO situs Anda sambil melindungi konten yang tidak relevan untuk pengindeksan publik.

Dengan menerapkan solusi sederhana ini, Anda dapat mengelola visibilitas situs web Anda di seluruh web dengan efisien. Selamat menjelajah!

Cara Mengatur Berkas robots.txt untuk Mengizinkan Akses Hanya ke Halaman Utama

Memahami robots.txt

Mengapa Menggunakan robots.txt?

Mengatur Berkas robots.txt Anda