홈 페이지에만 접근할 수 있도록 robots.txt 파일 설정하는 방법

웹사이트를 운영해본 적이 있다면, 웹 크롤러와 봇으로부터 사이트의 특정 부분을 숨기는 것이 얼마나 중요한지 아실 겁니다. 이번 포스트에서는 **사이트의 기본 홈 페이지만 허용하고 나머지 모든 페이지는 차단하기 위해 robots.txt 파일을 어떻게 구성할 수 있을까요?**라는 일반적인 질문을 다룰 것입니다.

robots.txt 이해하기

robots.txt 파일은 웹사이트가 웹 크롤러 및 스파이더와 소통하기 위해 사용하는 표준입니다. 이를 통해 Google, Bing, Yahoo와 같은 검색 엔진이 크롤링하고 인덱싱하기를 원하는 사이트의 부분과 접근을 제한하고 싶은 부분을 정의할 수 있습니다.

robots.txt를 사용하는 이유

  • 접근 제어: 웹 크롤러가 중요하지 않은 페이지에 접근하지 못하도록 방지합니다.
  • SEO 향상: 인덱싱되는 내용을 관리하여 사이트의 검색 엔진 성능을 향상시킵니다.
  • 콘텐츠 보호: 민감하거나 불필요한 콘텐츠를 공개 노출에서 보호합니다.

이 튜토리얼에서는 특히 홈 페이지만 크롤러가 접근할 수 있도록 보장하고, 다른 페이지와 해당 쿼리 문자열은 차단하는 방법에 초점을 맞춥니다.

robots.txt 파일 설정하기

홈 페이지만 허용하고 모든 다른 URL을 차단하기 위해, robots.txt 파일에 특정 규칙 세트를 사용해야 합니다. 코드 예시는 다음과 같습니다:

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

코드 설명

  1. User-Agent: *

    • 이 줄은 모든 웹 크롤러에 규칙이 적용됨을 나타냅니다. 별표 (*)는 와일드카드 기호입니다.
  2. Disallow: /*

    • 이 줄은 크롤러에게 웹사이트의 모든 페이지에 대한 접근을 차단하도록 지시합니다.
  3. Allow: /?okparam=

    • 이 줄은 쿼리 문자열이 okparam=true인 경우에 홈 페이지에 대한 접근을 허용합니다.
  4. Allow: /$

    • 달러 기호 ($)는 URL의 끝을 나타내며, 이는 홈 페이지(http://example.com 또는 http://example.com/)가 인덱싱될 수 있도록 허용합니다.

예제 URL

  • 허용됨:

    • http://example.com
    • http://example.com/?okparam=true
  • 차단됨:

    • http://example.com/anything
    • http://example.com/someendpoint.aspx
    • http://example.com?anythingbutokparam=true

robots.txt 파일 저장하기

  1. robots.txt라는 텍스트 파일을 생성합니다.
  2. 위에 제공된 코드를 텍스트 파일에 복사하여 붙여넣습니다.
  3. 이 파일을 웹사이트의 루트 디렉토리에 업로드합니다.

robots.txt 파일 테스트하기

robots.txt 파일을 업로드한 후, 모든 것이 의도한 대로 작동하는지 확인하기 위해 테스트하는 것이 중요합니다.

  • Google Search Console와 같은 도구를 사용하여 귀하의 사이트의 robots.txt가 Googlebot에 의해 어떻게 해석되는지 확인하십시오.
  • 테스트 피드백에 따라 필요한 경우 조정합니다.

결론

robots.txt 파일을 올바르게 설정하는 것은 검색 엔진이 귀하의 사이트에서 어떤 부분을 인덱싱할지를 관리하는 데 중요합니다. 위에 설명된 단계를 따르면 웹 크롤러가 귀하의 홈 페이지에만 접근할 수 있도록 하고, 다른 모든 페이지는 효과적으로 차단할 수 있습니다. 이 통제를 통해 사이트의 SEO 전략을 개선하고 공개 인덱싱과 관련없는 콘텐츠를 보호할 수 있습니다.

이 간단한 솔루션을 구현함으로써 웹 전반에 걸쳐 귀하의 웹사이트의 가시성을 효율적으로 관리할 수 있습니다. 즐거운 크롤링 되세요!