가끔 아파치 로그등을 보면 docroot디렉토리의 robots.txt를 찾는 user-agent(이하 UA)를 볼수있습니다.
아래와 같은 UA가 검색로봇입니다. 참고하세요.
Twiceler
ConveraCrawler
TurnitinBot
WISEbot
webcollage
Yeti
NaverBot-1.0
EMPAS_ROBOT
msnbot
Googlebot
BizBot04 kirk.overleaf.com
HappyBot
(gserver.kw.net)
CaliforniaBrownSpider
EI*Net/0.1 libwww/0.1
Ibot/1.0
libwww-perl/0.40
Merritt/1.0
StatFetcher/1.0
TeacherSoft/1.0
libwww/2.17
WWW Collector
processor/0.0ALPHA libwww-perl/0.20
wobot/1.0
from 206.214.202.45
Libertech-Rover www.libertech.com?
WhoWhere Robot
ITI
Spider
w3index
MyCNNSpider
SummyCrawler
OGspider
linklooker
CyberSpyder
(amant@www.cyberspyder.com)
SlowBot
heraSpider
Surfbot
Bizbot003
WebWalker
SandBot
EnigmaBot
spyder3.microsys.com
www.freeloader.com.
robots.txt파일은 사이트의 최상위 디렉토리에 존재해야 합니다. 하위 디렉토리는 적용되지 않습니다.
왜 robots.txt를 찾는가?
아래는 http://www.robotstxt.org 에 있는
FAQ입니다.
검색로봇은 로봇규약에 있는 robot.txt를 찾아서 설정내용대로 행동을 한다(?)고 합니다.
http://www.robotstxt.org/wc/faq.html#log
아래는 robot.txt의 예제입니다.
head안에 메타태그로 로봇의 접근을 설정하는 예입니다.
-
<html>
-
<head>
-
<meta name="robots" content="noindex,nofollow">
-
<meta name="description" content="This page ....">
-
<title>...</title>
-
</head>
-
<body>
아래는 meta-tag로 설정 가능한 지시자 입니다.
all = "ALL"
none = "NONE"
directives = directive ["," directives]
directive = index | follow
index = "INDEX" | "NOINDEX"
follow = "FOLLOW" | "NOFOLLOW"
http://www.robotstxt.org/wc/meta-user.html
이것저것 써놨는데 결론은 검색로봇이 robots.txt를 찾는것이라는거죠 :)
그냥 검색로봇이 규약(?)된 방식에 의해 접근을
제어하는 robot.txt를 찾고 그에 따라 행동한다는 것이겠죠.
그런데 noindex나 nofollow또는 Disallow를 안따르는 검색엔진이 있더군요!
관련 링크: http://www.robotstxt.org
최근의 대형 검색사이트의 검색로봇은 Crawl-delay 설정을 지원한다고 합니다.
(모든 검색로봇이 지원하지는 않습니다.)
robots.txt파일에 초단위로 다음 설정을 넣을수도 있습니다.
Crawl-delay:10
robots.txt파일 작성이 복잡하게 느껴지신다면 robots.txt파일을 작성해주는(?) 사이트도 있습니다.
'Server' 카테고리의 다른 글
samba 새버전 2.2.3a 릴리즈 (0) | 2002.02.11 |
---|---|
apache 에서 '사이트 공사중' 표시하기 (1) | 2002.02.08 |
proftpd사용시 ftp클라이언트에서 퍼미션조정 (0) | 2001.12.31 |
apache REDIRECT (0) | 2001.12.27 |
mp3 streamming test (2) | 2001.12.24 |