アクセスログの大半がロボット

さて、こまめにサイトへのアクセスログを眺めているのですが
ほとんどの方々はTwitterかFacebookのリンクから来てくださってるようで
「さんごう研究所」などとググってくる人は皆無ですね。

「さんごう研究所」でググっていただければ最上部に現れるのに。
検索トップサイトという優越感←

しかしですね、最近、というかbotの運用を始めたあたりから
検索サイトの巡回が目立つようになってきました。
というか、目立つってレベルじゃないのが「百度(baidu)」

一応、社長は中国人だけどワールドワイドにビジネス展開をしている
Googleに次ぐ世界第2位の検索サイト。
ここの巡回がひどい。

一度に数回の連続アクセスを1日に何回も。
いやまあ処理落ちしないレベルならいいんですが
ログファイルが百度ばっかで有益な情報が見えなくなるのだよ…

というわけで百度に対しては訪問お断り令を発表しました。
といっても、robots.txtを置いても見てくれないので、apacheの設定でアクセス拒否です。
百度の訪問に対しては403(アクセス権限なし)のお返事を返します。

おかげで1アクセスに対して数十kBのデータを転送していたのが
1アクセスあたり202Bになりました。1/100です。

百度は日本の企業とも提携していろいろ進めるみたいで
日本向けのIMEも開発してるとかどうとかだけど
サーバ管理人の中では嫌われ者のようですね。
百度のIMEが入ったスマホは使いたくねー…

んー、どうすればアクセスが伸びるのでしょう。
エラーコードとかコピペして解法を書いといたりすれば
検索で引っかかってきたりするのでしょうか。

というわけで
compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html
というユーザーエージェントを含むもの&ユーザーエージェントは普通なのに
どう見たって百度からのクローラに対しては
SetEnvIfNoCase User-Agent “Baiduspider” deny_baidu
SetEnvIfNoCase Remote-Addr 119.63.196. deny_baidu
SetEnvIfNoCase Remote-Addr 119.63.199. deny_baidu
としてdeny_baiduを作ってからホームディレクトリの設定に
Deny from env=deny_baidu
を追記!これでおk!
まあ、IPで制限かけるといろいろと巻き添えを生みそうだけどしかたない時もある。
IPの制限は必要に応じて加減してください。

投稿者:

さんごう

さんごう研究所所長。ソーラーカーのドライバー、あと電気エンジニア。そこそこカメラマン。自宅サーバを立てた理由はサイトに広告が表示されるのが嫌だったから。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です