홈 페이지에만 접근할 수 있도록 robots.txt
파일 설정하는 방법
웹사이트를 운영해본 적이 있다면, 웹 크롤러와 봇으로부터 사이트의 특정 부분을 숨기는 것이 얼마나 중요한지 아실 겁니다. 이번 포스트에서는 **사이트의 기본 홈 페이지만 허용하고 나머지 모든 페이지는 차단하기 위해 robots.txt
파일을 어떻게 구성할 수 있을까요?**라는 일반적인 질문을 다룰 것입니다.
robots.txt
이해하기
robots.txt
파일은 웹사이트가 웹 크롤러 및 스파이더와 소통하기 위해 사용하는 표준입니다. 이를 통해 Google, Bing, Yahoo와 같은 검색 엔진이 크롤링하고 인덱싱하기를 원하는 사이트의 부분과 접근을 제한하고 싶은 부분을 정의할 수 있습니다.
robots.txt
를 사용하는 이유
- 접근 제어: 웹 크롤러가 중요하지 않은 페이지에 접근하지 못하도록 방지합니다.
- SEO 향상: 인덱싱되는 내용을 관리하여 사이트의 검색 엔진 성능을 향상시킵니다.
- 콘텐츠 보호: 민감하거나 불필요한 콘텐츠를 공개 노출에서 보호합니다.
이 튜토리얼에서는 특히 홈 페이지만 크롤러가 접근할 수 있도록 보장하고, 다른 페이지와 해당 쿼리 문자열은 차단하는 방법에 초점을 맞춥니다.
robots.txt
파일 설정하기
홈 페이지만 허용하고 모든 다른 URL을 차단하기 위해, robots.txt
파일에 특정 규칙 세트를 사용해야 합니다. 코드 예시는 다음과 같습니다:
User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$
코드 설명
-
User-Agent: *
- 이 줄은 모든 웹 크롤러에 규칙이 적용됨을 나타냅니다. 별표 (*)는 와일드카드 기호입니다.
-
Disallow: /*
- 이 줄은 크롤러에게 웹사이트의 모든 페이지에 대한 접근을 차단하도록 지시합니다.
-
Allow: /?okparam=
- 이 줄은 쿼리 문자열이
okparam=true
인 경우에 홈 페이지에 대한 접근을 허용합니다.
- 이 줄은 쿼리 문자열이
-
Allow: /$
- 달러 기호 ($)는 URL의 끝을 나타내며, 이는 홈 페이지(
http://example.com
또는http://example.com/
)가 인덱싱될 수 있도록 허용합니다.
- 달러 기호 ($)는 URL의 끝을 나타내며, 이는 홈 페이지(
예제 URL
-
허용됨:
http://example.com
http://example.com/?okparam=true
-
차단됨:
http://example.com/anything
http://example.com/someendpoint.aspx
http://example.com?anythingbutokparam=true
robots.txt
파일 저장하기
robots.txt
라는 텍스트 파일을 생성합니다.- 위에 제공된 코드를 텍스트 파일에 복사하여 붙여넣습니다.
- 이 파일을 웹사이트의 루트 디렉토리에 업로드합니다.
robots.txt
파일 테스트하기
robots.txt
파일을 업로드한 후, 모든 것이 의도한 대로 작동하는지 확인하기 위해 테스트하는 것이 중요합니다.
- Google Search Console와 같은 도구를 사용하여 귀하의 사이트의 robots.txt가 Googlebot에 의해 어떻게 해석되는지 확인하십시오.
- 테스트 피드백에 따라 필요한 경우 조정합니다.
결론
robots.txt
파일을 올바르게 설정하는 것은 검색 엔진이 귀하의 사이트에서 어떤 부분을 인덱싱할지를 관리하는 데 중요합니다. 위에 설명된 단계를 따르면 웹 크롤러가 귀하의 홈 페이지에만 접근할 수 있도록 하고, 다른 모든 페이지는 효과적으로 차단할 수 있습니다. 이 통제를 통해 사이트의 SEO 전략을 개선하고 공개 인덱싱과 관련없는 콘텐츠를 보호할 수 있습니다.
이 간단한 솔루션을 구현함으로써 웹 전반에 걸쳐 귀하의 웹사이트의 가시성을 효율적으로 관리할 수 있습니다. 즐거운 크롤링 되세요!