(見たい動画を探すときは「最後に【無料動画】って付けるとまとめサイトから動画が見つけやすいよ!」) 忍者ブログ

slot-好きのゅぅι″のお気楽動画(ブログ)そこら辺にいる関西人やで! 動画はカテゴリーから探してね!適当に色んな動画サイトから探してるよ!(動画はPCから見てね!)

【pcなら動画は普通に見れると思いますけどスマホ、iPod、タブレットからは動画はちゃんと見れないかも知れません】[便利な無料ツールも見つけたら載せていきます] スロットの5.5号機は全然面白くない!                                アプリからでも動画をダウンロードできるアプリはありますよ! PCの方が簡単に出来るけどね!!PCで使えるのはツール スマホで使えるのはアプリって意味です                                                                    

[PR]

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

robots.txtの設定 アクセスログに迷惑なロボットとクローラーの排除方法

robots.txtの設定・書き方、アクセス禁止・制限、ロボット・クローラー - Google、Yahoo、Bing、Baidu、Naver、Cuil、DotBot作成:2010-02-16
robots.txtの設定方法(User-agent:、Disallow: など)。
迷惑なロボットの排除・アクセス禁止。




robots.txt•robots.txt とは
robots.txt は、検索エンジンのロボットを制御するためのファイルです。
ロボット(Robot)は、ボット(Bot)、クローラー(Crawler)、スパイダー(Spider)など、呼び方はいろいろあります。
詳しくは、 検索エンジンのロボット、ユーザーエージェント をご覧ください。
•サーバへの負荷
robots.txt を使う目的は人それぞれだと思いますが、私は特定のロボットのアクセスを禁止するために使用しています。
アクセスを禁止する対象は、やたらとサイト内を巡回し、サーバに負荷をかけるロボットです。
サーバのログを調べてみると、「ユーザーのアクセス数よりロボットのアクセス数の方が多かった」なんてこともあります。
ロボットのアクセスは、ユーザーのアクセスと同様、サーバに負荷がかかります。
ページ数が多く、更新頻度が高いサイトであれば、ロボットが多くのページを頻繁に巡回するため、結構な負荷になると思います。
•アクセス禁止
日本でよく使われている検索エンジンは、Google、Yahoo の2つで、次点で Bing です。
その他の検索エンジンはあまり使われていないので、個人的にはサイトにロボットが来なくても全く問題がないと考えています。



robots.txt の設定、書き方•robots.txt について
1.robots.txt は、サイトのトップの階層に置きます。
2.robots.txt を用意したからといって、ロボットが正しく動作してくれるとは限りません。
3.robots.txt で定義した内容を、ロボットが即守ってくれるとは限りません。
反映されるまで時間がかかる場合があります。
•全てのロボットに対する制御
全てのロボットに対して、全てのページへのアクセスを禁止する場合は、以下のように書きます。

User-agent: *
Disallow: /
全てのロボットに対して、全てのページへのアクセスを許可する場合は、以下のように書きます。

User-agent: *
Disallow:
全てのロボットに対して、特定のディレクトリやページへのアクセスを禁止する場合は、以下のように書きます。
User-agent: *
Disallow: /cgi-bin/
Disallow: /data/
Disallow: /test/test.html
Disallow: /abc/*.gif$
Disallow: /memo*/
これは、
cgi-bin のディレクトリ
data のディレクトリ
test/test.html のページ
abc ディレクトリにある全てのGIFファイル(ファイルの末尾が.gifのもの)
memo で始まるすべてのディレクトリ(memotest、memoabc など)
へのアクセスを禁止します。
ただし、* や $ を使った正規表現的な書き方は、Googleなど一部のロボット以外は無視されるようです。
•特定のロボットに対する制御
TestBot に対してアクセスを禁止する場合は、以下のように書きます。
TestBot 以外はアクセスできます。
User-agent: TestBot
Disallow: /
TestBot と aBot のアクセスを禁止する場合は、以下のように書きます。
TestBot と aBot 以外はアクセスできます。
User-agent: TestBot
Disallow: /

User-agent: aBot
Disallow: /
このように複数の User-agent: を書く場合は、改行だけの行を1行入れます。

TestBot と aBot だけアクセスを許可する場合は、以下のように書きます。
TestBot と aBot 以外はアクセスできません。
User-agent: TestBot
Disallow:

User-agent: aBot
Disallow:

User-agent: *
Disallow: /
User-agent: で使用するロボットの名称は、ロボットのユーザーエージェントに含まれている文字列を指定します。
例えば、Google のロボットのユーザーエージェントは、
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
なので、robots.txt では以下のようになります。
User-agent: Googlebot
Disallow: /cgi-bin/
その他、
Googleの画像検索は、Googlebot-Image
Googleのモバイル検索は、Googlebot-Mobile
Yahooの検索は、Slurp
MSN(Bing)の検索は、msnbot
Baidu(百度、バイドゥ)の検索は、Baiduspider
Askの検索は、Teoma
Naverの検索は、Yeti
Cuilの検索は、Twiceler
Dotbotの検索は、DotBot
などとなります。
ユーザーエージェントについては、 検索エンジンのロボット、ユーザーエージェント をご覧ください。
•その他の制御
TestBot に対して、連続してアクセスしてくる間隔(時間)を調整する場合は、以下のように書きます。
以下は、60秒の場合で、秒数で間隔を指定します。
User-agent: TestBot
Crawl-delay: 60
robots.txt 内にコメントを書きたい場合やコメントアウトしたい場合は、# を使います。
# 2010-01-20
User-agent: *
Disallow:
•参考サイト
http://www.robotstxt.org/robotstxt.html
http://en.wikipedia.org/wiki/Robots.txt
http://www.w3.org/TR/html4/appendix/notes.html#h-B.4.1.1

ブログ内を検索

拍手[0回]

PR

コメント

お名前
タイトル
文字色
メールアドレス
URL
コメント
パスワード Vodafone絵文字 i-mode絵文字 Ezweb絵文字

sojednt iforzkm

txdkszvvkj2:8762, http://www.mgddodauak.com/ jhxdvnvoyr

ブログ内を検索できるよ!+カウンター+爆サイ.com

フリーエリア

???

プロフィール

HN:
スロットが好きなゅぅι″です!(完全に趣味の領域を超えてます)
性別:
非公開

最新コメント

[03/12 ロレックススーパーコピー]
[03/04 ブルガリ時計 買取 up]
[03/03 ルイ ヴィトン 財布 メンズ coach]
[03/02 スーパーコピー時計]
[02/29 ブランドコピー]

バーコード

アナライズ

Flag Counter

あならいず