가끔 아파치 로그등을 보면 docroot디렉토리의 robots.txt를 찾는 user-agent(이하 UA)를 볼수있습니다.

아래와 같은 UA가 검색로봇입니다. 참고하세요.

Twiceler
ConveraCrawler
TurnitinBot
WISEbot
webcollage
Yeti
NaverBot-1.0
EMPAS_ROBOT
msnbot
Googlebot

Yahoo! Slurp

BizBot04 kirk.overleaf.com
HappyBot (gserver.kw.net)
CaliforniaBrownSpider
EI*Net/0.1 libwww/0.1
Ibot/1.0 libwww-perl/0.40
Merritt/1.0
StatFetcher/1.0
TeacherSoft/1.0 libwww/2.17
WWW Collector
processor/0.0ALPHA libwww-perl/0.20
wobot/1.0 from 206.214.202.45
Libertech-Rover www.libertech.com?
WhoWhere Robot
ITI Spider
w3index
MyCNNSpider
SummyCrawler
OGspider
linklooker
CyberSpyder (amant@www.cyberspyder.com)
SlowBot
heraSpider
Surfbot
Bizbot003
WebWalker
SandBot
EnigmaBot
spyder3.microsys.com
www.freeloader.com.


robots.txt파일은 사이트의 최상위 디렉토리에 존재해야 합니다. 하위 디렉토리는 적용되지 않습니다.

왜 robots.txt를 찾는가?
아래는 http://www.robotstxt.org 에 있는 FAQ입니다.
검색로봇은 로봇규약에 있는 robot.txt를 찾아서 설정내용대로 행동을 한다(?)고 합니다.
http://www.robotstxt.org/wc/faq.html#log

아래는 robot.txt의 예제입니다.
head안에 메타태그로 로봇의 접근을 설정하는 예입니다.


  1. <html>
  2. <head>
  3. <meta name="robots" content="noindex,nofollow">
  4. <meta name="description" content="This page ....">
  5. <title>...</title>
  6. </head>
  7. <body>
 

아래는 meta-tag로 설정 가능한 지시자 입니다.

 content = all | none | directives
all = "ALL"
none = "NONE"
directives = directive ["," directives]
directive = index | follow
index = "INDEX" | "NOINDEX"
follow = "FOLLOW" | "NOFOLLOW"


http://www.robotstxt.org/wc/meta-user.html

이것저것 써놨는데 결론은 검색로봇이 robots.txt를 찾는것이라는거죠 :)
그냥 검색로봇이 규약(?)된 방식에 의해 접근을 제어하는 robot.txt를 찾고 그에 따라 행동한다는 것이겠죠.
그런데 noindex나 nofollow또는 Disallow를 안따르는 검색엔진이 있더군요!

관련 링크: http://www.robotstxt.org


최근의 대형 검색사이트의 검색로봇은 Crawl-delay 설정을 지원한다고 합니다.

(모든 검색로봇이 지원하지는 않습니다.)

robots.txt파일에 초단위로 다음 설정을 넣을수도 있습니다.

Crawl-delay:10

robots.txt파일 작성이 복잡하게 느껴지신다면 robots.txt파일을 작성해주는(?) 사이트도 있습니다.

http://www.mcanerin.com/EN/search-engine/robots-txt.asp

'Server' 카테고리의 다른 글

samba 새버전 2.2.3a 릴리즈  (0) 2002.02.11
apache 에서 '사이트 공사중' 표시하기  (1) 2002.02.08
proftpd사용시 ftp클라이언트에서 퍼미션조정  (0) 2001.12.31
apache REDIRECT  (0) 2001.12.27
mp3 streamming test  (2) 2001.12.24

+ Recent posts