วิธีตั้งค่าไฟล์ robots.txt
เพื่อให้เข้าถึงได้เฉพาะหน้าแรก
หากคุณเคยมีเว็บไซต์ คุณก็ทราบถึงความสำคัญของการปกปิดบางส่วนของเว็บไซต์จากเว็บครอลเลอร์และบ็อต ในโพสต์นี้เราจะมาดูคำถามที่พบบ่อย: คุณจะกำหนดค่าไฟล์ robots.txt
ให้อนุญาตให้เข้าถึงเฉพาะหน้าแรกของเว็บไซต์คุณในขณะที่บล็อกทุกอย่างอื่นได้อย่างไร?
ความเข้าใจเกี่ยวกับ robots.txt
ไฟล์ robots.txt
เป็นมาตรฐานที่เว็บไซต์ใช้ในการสื่อสารกับเว็บครอลเลอร์และสไปเดอร์ มันช่วยให้คุณกำหนดส่วนใดของเว็บไซต์ที่คุณต้องการให้ถูกครอลล์และจัดทำดัชนีโดยเครื่องมือค้นหาเช่น Google, Bing และ Yahoo และส่วนใดที่คุณต้องการเก็บไว้ไม่ให้เข้าถึงได้
ทำไมต้องใช้ robots.txt
?
- ควบคุมการเข้าถึง: ป้องกันเว็บครอลเลอร์จากการเข้าถึงหน้าที่ไม่สำคัญ
- เพิ่มประสิทธิภาพ SEO: ปรับปรุงประสิทธิภาพเครื่องมือค้นหาของเว็บไซต์ของคุณโดยการจัดการสิ่งที่ได้รับการจัดทำดัชนี
- ปกป้องเนื้อหา: เก็บเนื้อหาที่ละเอียดอ่อนหรือไม่จำเป็นออกจากการเปิดเผยต่อสาธารณะ
ในคู่มือนี้ เราจะมุ่งเน้นไปที่วิธีการรับรองว่าเพียงหน้าแรกของคุณเท่านั้นที่เข้าถึงได้สำหรับครอลเลอร์ ขณะที่หน้าทั้งหมดและพารามิเตอร์ที่เกี่ยวข้องจะถูกบล็อก
การตั้งค่าไฟล์ robots.txt
ของคุณ
เพื่ออนุญาตให้เพียงหน้าแรกของคุณและบล็อก URL อื่นๆ คุณต้องใช้ชุดกฎที่เฉพาะเจาะจงในไฟล์ robots.txt
ของคุณ นี่คือโค้ดที่จะดูเหมือน:
User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$
การแยกโค้ด
-
User-Agent: *
- บรรทัดนี้ระบุว่ากฎใช้กับเว็บครอลเลอร์ทั้งหมด เครื่องหมายดอกจัน (*) เป็นสัญลักษณ์ wildcard.
-
Disallow: /*
- บรรทัดนี้แจ้งให้ครอลเลอร์บล็อกการเข้าถึงหน้าทั้งหมดบนเว็บไซต์ของคุณ
-
Allow: /?okparam=
- บรรทัดนี้อนุญาตให้ครอลเลอร์เข้าถึงหน้าแรกถ้าพารามิเตอร์การค้นหารวม
okparam=true
- บรรทัดนี้อนุญาตให้ครอลเลอร์เข้าถึงหน้าแรกถ้าพารามิเตอร์การค้นหารวม
-
Allow: /$
- เครื่องหมายดอลลาร์ ($) หมายถึงตอนท้ายของ URL ซึ่งหมายความว่าจะอนุญาตให้หน้าแรก (
http://example.com
หรือhttp://example.com/
) ถูกจัดทำดัชนี
- เครื่องหมายดอลลาร์ ($) หมายถึงตอนท้ายของ URL ซึ่งหมายความว่าจะอนุญาตให้หน้าแรก (
ตัวอย่าง URL
-
อนุญาต:
http://example.com
http://example.com/?okparam=true
-
ถูกบล็อก:
http://example.com/anything
http://example.com/someendpoint.aspx
http://example.com?anythingbutokparam=true
การบันทึกไฟล์ robots.txt
ของคุณ
- สร้างไฟล์ข้อความชื่อ
robots.txt
- คัดลอกและวางโค้ดที่ให้ไว้นี้ลงในไฟล์ข้อความ
- อัปโหลดไฟล์นี้ไปยังไดเรกทอรีหลักของเว็บไซต์ของคุณ
การทดสอบไฟล์ robots.txt
ของคุณ
หลังจากที่คุณอัปโหลดไฟล์ robots.txt
ของคุณแล้ว สิ่งสำคัญคือการทดสอบเพื่อให้แน่ใจว่าทุกอย่างทำงานตามที่คุณตั้งใจ
- ใช้เครื่องมือต่าง ๆ เช่น Google Search Console เพื่อดูว่า Googlebot แปลไฟล์ robots.txt ของเว็บไซต์คุณอย่างไร
- ปรับเปลี่ยนถ้าจำเป็นตามผลการทดสอบ
สรุป
การตั้งค่าไฟล์ robots.txt
ให้ถูกต้องเป็นสิ่งสำคัญสำหรับการจัดการว่าบางส่วนของเว็บไซต์ของคุณได้รับการจัดทำดัชนีจากเครื่องมือค้นหาอย่างไร โดยการทำตามขั้นตอนด้านบน คุณจะอนุญาตให้เว็บครอลเลอร์เข้าถึงเฉพาะหน้าแรกของคุณได้สำเร็จ ในขณะเดียวกันก็สามารถบล็อกหน้าทั้งหมดอื่น ๆ ได้อย่างมีประสิทธิภาพ ด้วยการควบคุมนี้ คุณสามารถเสริมกลยุทธ์ SEO ของเว็บไซต์ของคุณในขณะที่ปกป้องเนื้อหาที่ไม่เกี่ยวข้องสำหรับการจัดทำดัชนีสาธารณะ
ด้วยการใช้วิธีแก้ปัญหาง่ายๆ นี้ คุณสามารถจัดการวิสัยทัศน์ของเว็บไซต์ของคุณบนเว็บได้อย่างมีประสิทธิภาพ ขอให้สนุกในการครอลล์!