วิธีตั้งค่าไฟล์ robots.txt เพื่อให้เข้าถึงได้เฉพาะหน้าแรก

หากคุณเคยมีเว็บไซต์ คุณก็ทราบถึงความสำคัญของการปกปิดบางส่วนของเว็บไซต์จากเว็บครอลเลอร์และบ็อต ในโพสต์นี้เราจะมาดูคำถามที่พบบ่อย: คุณจะกำหนดค่าไฟล์ robots.txt ให้อนุญาตให้เข้าถึงเฉพาะหน้าแรกของเว็บไซต์คุณในขณะที่บล็อกทุกอย่างอื่นได้อย่างไร?

ความเข้าใจเกี่ยวกับ robots.txt

ไฟล์ robots.txt เป็นมาตรฐานที่เว็บไซต์ใช้ในการสื่อสารกับเว็บครอลเลอร์และสไปเดอร์ มันช่วยให้คุณกำหนดส่วนใดของเว็บไซต์ที่คุณต้องการให้ถูกครอลล์และจัดทำดัชนีโดยเครื่องมือค้นหาเช่น Google, Bing และ Yahoo และส่วนใดที่คุณต้องการเก็บไว้ไม่ให้เข้าถึงได้

ทำไมต้องใช้ robots.txt?

  • ควบคุมการเข้าถึง: ป้องกันเว็บครอลเลอร์จากการเข้าถึงหน้าที่ไม่สำคัญ
  • เพิ่มประสิทธิภาพ SEO: ปรับปรุงประสิทธิภาพเครื่องมือค้นหาของเว็บไซต์ของคุณโดยการจัดการสิ่งที่ได้รับการจัดทำดัชนี
  • ปกป้องเนื้อหา: เก็บเนื้อหาที่ละเอียดอ่อนหรือไม่จำเป็นออกจากการเปิดเผยต่อสาธารณะ

ในคู่มือนี้ เราจะมุ่งเน้นไปที่วิธีการรับรองว่าเพียงหน้าแรกของคุณเท่านั้นที่เข้าถึงได้สำหรับครอลเลอร์ ขณะที่หน้าทั้งหมดและพารามิเตอร์ที่เกี่ยวข้องจะถูกบล็อก

การตั้งค่าไฟล์ robots.txt ของคุณ

เพื่ออนุญาตให้เพียงหน้าแรกของคุณและบล็อก URL อื่นๆ คุณต้องใช้ชุดกฎที่เฉพาะเจาะจงในไฟล์ robots.txt ของคุณ นี่คือโค้ดที่จะดูเหมือน:

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

การแยกโค้ด

  1. User-Agent: *

    • บรรทัดนี้ระบุว่ากฎใช้กับเว็บครอลเลอร์ทั้งหมด เครื่องหมายดอกจัน (*) เป็นสัญลักษณ์ wildcard.
  2. Disallow: /*

    • บรรทัดนี้แจ้งให้ครอลเลอร์บล็อกการเข้าถึงหน้าทั้งหมดบนเว็บไซต์ของคุณ
  3. Allow: /?okparam=

    • บรรทัดนี้อนุญาตให้ครอลเลอร์เข้าถึงหน้าแรกถ้าพารามิเตอร์การค้นหารวม okparam=true
  4. Allow: /$

    • เครื่องหมายดอลลาร์ ($) หมายถึงตอนท้ายของ URL ซึ่งหมายความว่าจะอนุญาตให้หน้าแรก (http://example.com หรือ http://example.com/) ถูกจัดทำดัชนี

ตัวอย่าง URL

  • อนุญาต:

    • http://example.com
    • http://example.com/?okparam=true
  • ถูกบล็อก:

    • http://example.com/anything
    • http://example.com/someendpoint.aspx
    • http://example.com?anythingbutokparam=true

การบันทึกไฟล์ robots.txt ของคุณ

  1. สร้างไฟล์ข้อความชื่อ robots.txt
  2. คัดลอกและวางโค้ดที่ให้ไว้นี้ลงในไฟล์ข้อความ
  3. อัปโหลดไฟล์นี้ไปยังไดเรกทอรีหลักของเว็บไซต์ของคุณ

การทดสอบไฟล์ robots.txt ของคุณ

หลังจากที่คุณอัปโหลดไฟล์ robots.txt ของคุณแล้ว สิ่งสำคัญคือการทดสอบเพื่อให้แน่ใจว่าทุกอย่างทำงานตามที่คุณตั้งใจ

  • ใช้เครื่องมือต่าง ๆ เช่น Google Search Console เพื่อดูว่า Googlebot แปลไฟล์ robots.txt ของเว็บไซต์คุณอย่างไร
  • ปรับเปลี่ยนถ้าจำเป็นตามผลการทดสอบ

สรุป

การตั้งค่าไฟล์ robots.txt ให้ถูกต้องเป็นสิ่งสำคัญสำหรับการจัดการว่าบางส่วนของเว็บไซต์ของคุณได้รับการจัดทำดัชนีจากเครื่องมือค้นหาอย่างไร โดยการทำตามขั้นตอนด้านบน คุณจะอนุญาตให้เว็บครอลเลอร์เข้าถึงเฉพาะหน้าแรกของคุณได้สำเร็จ ในขณะเดียวกันก็สามารถบล็อกหน้าทั้งหมดอื่น ๆ ได้อย่างมีประสิทธิภาพ ด้วยการควบคุมนี้ คุณสามารถเสริมกลยุทธ์ SEO ของเว็บไซต์ของคุณในขณะที่ปกป้องเนื้อหาที่ไม่เกี่ยวข้องสำหรับการจัดทำดัชนีสาธารณะ

ด้วยการใช้วิธีแก้ปัญหาง่ายๆ นี้ คุณสามารถจัดการวิสัยทัศน์ของเว็บไซต์ของคุณบนเว็บได้อย่างมีประสิทธิภาพ ขอให้สนุกในการครอลล์!