robots.txt

2002. 1. 7. 15:48

가끔 아파치 로그등을 보면 docroot디렉토리의 robots.txt를 찾는 user-agent(이하 UA)를 볼수있습니다.

아래와 같은 UA가 검색로봇입니다. 참고하세요.

Twiceler
ConveraCrawler
TurnitinBot
WISEbot
webcollage
Yeti
NaverBot-1.0
EMPAS_ROBOT
msnbot
Googlebot

Yahoo! Slurp

BizBot04 kirk.overleaf.com
HappyBot (gserver.kw.net)
CaliforniaBrownSpider
EI*Net/0.1 libwww/0.1
Ibot/1.0 libwww-perl/0.40
Merritt/1.0
StatFetcher/1.0
TeacherSoft/1.0 libwww/2.17
WWW Collector
processor/0.0ALPHA libwww-perl/0.20
wobot/1.0 from 206.214.202.45
Libertech-Rover www.libertech.com?
WhoWhere Robot
ITI Spider
w3index
MyCNNSpider
SummyCrawler
OGspider
linklooker
CyberSpyder (amant@www.cyberspyder.com)
SlowBot
heraSpider
Surfbot
Bizbot003
WebWalker
SandBot
EnigmaBot
spyder3.microsys.com
www.freeloader.com.

robots.txt파일은 사이트의 최상위 디렉토리에 존재해야 합니다. 하위 디렉토리는 적용되지 않습니다.

왜 robots.txt를 찾는가?
아래는 http://www.robotstxt.org 에 있는 FAQ입니다.
검색로봇은 로봇규약에 있는 robot.txt를 찾아서 설정내용대로 행동을 한다(?)고 합니다.
http://www.robotstxt.org/wc/faq.html#log

아래는 robot.txt의 예제입니다.
head안에 메타태그로 로봇의 접근을 설정하는 예입니다.

<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="This page ....">
<title>...</title>
</head>
<body>

아래는 meta-tag로 설정 가능한 지시자 입니다.

http://www.robotstxt.org/wc/meta-user.html

이것저것 써놨는데 결론은 검색로봇이 robots.txt를 찾는것이라는거죠 :)
그냥 검색로봇이 규약(?)된 방식에 의해 접근을 제어하는 robot.txt를 찾고 그에 따라 행동한다는 것이겠죠.
그런데 noindex나 nofollow또는 Disallow를 안따르는 검색엔진이 있더군요!

'Server' 카테고리의 다른 글

samba 새버전 2.2.3a 릴리즈 (0)	2002.02.11
apache 에서 '사이트 공사중' 표시하기 (1)	2002.02.08
proftpd사용시 ftp클라이언트에서 퍼미션조정 (0)	2001.12.31
apache REDIRECT (0)	2001.12.27
mp3 streamming test (2)	2001.12.24

F/R/E/E/4/U

robots.txt

'Server' 카테고리의 다른 글

+ Recent posts

티스토리툴바