개발자의 하루

robots.txt를 쉽게 만드는 법 본문

Server

robots.txt를 쉽게 만드는 법

단독질주 2017. 6. 1. 21:20
반응형


홈페이지 루트 폴더에 robots.txt가 있어도 좋고 없어도 별 상관 없지만

간혹 이런 경우가 발생될 수 있습니다.


잘 만들어진 robots.txt는 자신의 홈페이지를 검색엔진에 보다 유연하게 등록가능하지만 

홈페이지 안에 관리자 페이지(/admin, /admin_page)나 개인정보(/member, /group)등 굳이 검색이 되서 해킹의 빌미를 줄 필요는 없습니다.

통상 잘 만들어진 홈페이지는 다른 도메인으로 관리자 페이지를 접속하지만 오프소스를 이용할 경우 알려진 정보가 많이 있어 조금 위험할 수도 있습니다.


또한 잘못 만들어지진 robots.txt덕분에 과도한 로봇들의 DDOS를 당할 수도 있습니다.

DDOS까진 아니더라도 일반적으로 호스팅, 코로케이션등은 트래픽 용량에 따라 과금이 다르니 불필요한 과금을 유발 할 수도 있겠죠.



User-agent: Googlebot

Disallow: /

User-agent: *

Disallow: /admin/

Disallow: /admin_page/

Disallow: /*.xls$

Disallow: /*.pdf$

Disallow: /*.hwp$

구글로봇은 모두 막고 그외 검색엔진은 허용하지만 /admin 디렉토리와 /admin_page는 검색하지 못하며

xls, pdf, hwp로 끝나는 파일도 검색하지 말라고 할 수 있습니다.



국내검색로봇으로는

네이버 : cowbot, naverbot, yeti (최근에는 yeti만 사용되는 듯 합니다.)

다음 : daumos


그외

구글 : Googlebot

구글이미지 : googlebot-image

구글모바일 : googlebot-mobile

MSN : MSNBot

MSN이미지 : psbo

야후 : Slurp, yahoo-slurp

야후이미지 : Yahoo-MMCrawler

야후블로그 : yahoo-blog

MS : bingbot


등이 있습니다.


robots.txt 검증 및 테스트

https://support.google.com/webmasters/answer/6062596?hl=ko&ref_topic=6061961

http://webmastertool.naver.com/board/main.naver

 




반응형

'Server' 카테고리의 다른 글

예전 PHP 파일 다운받기  (0) 2017.06.05
APM설치-Apache (CentOS 6.9)  (0) 2017.06.02
APM설치-MySQL (CentOS 6.9)  (0) 2017.06.01
logwatch 설치 - 시스템 로그  (0) 2017.05.31
CentOS 6.9 설치 후 기본 설정  (4) 2017.05.31