일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 아리스티포스
- short_open_tag
- 다날
- 윈도우10
- 크세노크라테스
- A2000UA
- RaiDrive
- 피론
- 아이스키네스
- 디아고라스
- 고르기아스
- 알키비아데스
- 서버
- 아베로에스
- Server
- PG
- 아낙사고라스
- mysl
- NetDrive
- 히파티아
- php
- bridged
- 아낙시만드로스
- 소도마
- 플로티노스
- 프톨레 마이오스
- httpd
- CentOS
- VMware
- ExpanDrive
- Today
- Total
개발자의 하루
robots.txt를 쉽게 만드는 법 본문
홈페이지 루트 폴더에 robots.txt가 있어도 좋고 없어도 별 상관 없지만
간혹 이런 경우가 발생될 수 있습니다.
잘 만들어진 robots.txt는 자신의 홈페이지를 검색엔진에 보다 유연하게 등록가능하지만
홈페이지 안에 관리자 페이지(/admin, /admin_page)나 개인정보(/member, /group)등 굳이 검색이 되서 해킹의 빌미를 줄 필요는 없습니다.
통상 잘 만들어진 홈페이지는 다른 도메인으로 관리자 페이지를 접속하지만 오프소스를 이용할 경우 알려진 정보가 많이 있어 조금 위험할 수도 있습니다.
또한 잘못 만들어지진 robots.txt덕분에 과도한 로봇들의 DDOS를 당할 수도 있습니다.
DDOS까진 아니더라도 일반적으로 호스팅, 코로케이션등은 트래픽 용량에 따라 과금이 다르니 불필요한 과금을 유발 할 수도 있겠죠.
User-agent: Googlebot
Disallow: /
User-agent: *
Disallow: /admin/
Disallow: /admin_page/
Disallow: /*.xls$
Disallow: /*.pdf$
Disallow: /*.hwp$
구글로봇은 모두 막고 그외 검색엔진은 허용하지만 /admin 디렉토리와 /admin_page는 검색하지 못하며
xls, pdf, hwp로 끝나는 파일도 검색하지 말라고 할 수 있습니다.
국내검색로봇으로는
네이버 : cowbot, naverbot, yeti (최근에는 yeti만 사용되는 듯 합니다.)
다음 : daumos
그외
구글 : Googlebot
구글이미지 : googlebot-image
구글모바일 : googlebot-mobile
MSN : MSNBot
MSN이미지 : psbo
야후 : Slurp, yahoo-slurp
야후이미지 : Yahoo-MMCrawler
야후블로그 : yahoo-blog
MS : bingbot
등이 있습니다.
robots.txt 검증 및 테스트
https://support.google.com/webmasters/answer/6062596?hl=ko&ref_topic=6061961
http://webmastertool.naver.com/board/main.naver
'Server' 카테고리의 다른 글
예전 PHP 파일 다운받기 (0) | 2017.06.05 |
---|---|
APM설치-Apache (CentOS 6.9) (0) | 2017.06.02 |
APM설치-MySQL (CentOS 6.9) (0) | 2017.06.01 |
logwatch 설치 - 시스템 로그 (0) | 2017.05.31 |
CentOS 6.9 설치 후 기본 설정 (4) | 2017.05.31 |