robots.txtの面倒くさい話

こっそり稼働してる趣味のサイトがあるよ的な話とか、前はHTMLでサイト作ってた事もあるとか書いてきたけども、今までは全部検索エンジンに引っかからなくてOKというか、むしろ検索に引っかかると困るようなものも気楽にウェブスペースにUP出来るのが魅力で、全部の検索エンジンを一括拒否してた。

これは robots.txt に

User-agent: *
Disallow: /

の2行を書いてドメインのトップに置くだけ。
もちろん内容的に検索エンジンに拾われたって問題ないものもあったけど、わざわざ指定してその部分を検索エンジンに拾ってもらうほど重要なものも書いてない。
一括拒否する前は日記サイトの掲示板に、検索から来たんですけどって質問してくれた人もいたんだけどね。
でも日記サイトも身内に日常知らせるのが目的で書いてただけだから、知り合いに直接URL配ればそれでよかった。

しかし今回、お小遣い稼ぎ目的のブログなんて人に来てもらってなんぼじゃないですか。
検索エンジンに拾ってもらって、検索からも辿り着いて欲しいじゃないですか。
って考えたら、全部の検索エンジンを拒否してる場合じゃない。
しかし検索エンジンに拾われると困るファイルも大量にある。むしろ今まで拒否ってた部分はそのまま全部拒否って、新たに構築したブログのみクロールして欲しい。
あ、クロールって言葉も今回色々調べて初めて知りました。
ソフトウェアが自動的にWebページを収集する作業。らしい。

というわけで、仮に拒否りたいフォルダがABCだとすると、

User-agent: *
Disallow: /A/
Disallow: /B/
Disallow: /C/

という記述。ここまではそう面倒でもない。

問題だったのは、WordPress に対する robots.txt の書き方。
ほとんどのサイトさんがWordPressをドメイン直下に設置してるという設定で解説している。
WordPressをインストールする時にWordPressが仮想robots.txtってのを自動生成してくれるようですが、WordPressでブログ始めるためだけに新たにレンタルサーバ契約して、WordPressインストール という手順を踏んだ人にしか多分利用できない。
私みたいにもともとrobots.txt置いてる人はそっちが優先されちゃう。
しかもこのブログに関してだったら、
http://buiary.omoti.jp/blog/
下線部分がサブドメインなわけで、実際はDというフォルダの中にblogってフォルダを作ってそこにWordPressがインストールされてる。
Dというフォルダの中身全部クロールOKって事なら別に問題なかった。
WordPressは管理画面やらプラグインやらクロール必要ないものがたっぷりある。
これは検索するとすぐ出てくる。
幾つかのサイトさんみて共通してるな~と思ったのが

Disallow: /wp-admin/ (管理画面)
Disallow: /wp-content/plugins/ (プラグイン)
Disallow: /*?* (URLに ? が入るページ)
Disallow: /*?  (URLに ? が入るページ)

他も色々あるっぽいし私もこれ以外も書いてるけど、その辺は各自取捨選択で良さそう?

でやっと問題部分。
このブログはDってフォルダの中のblogってフォルダなので、単純に考えたら
Disallow: /D/blog/wp-admin/
って書けばいい。
だけどちょっと待って。このブログ1個でお小遣い稼ぎする気は元々あまりない。
自分が管理できる範囲で複数平行して運営したい。
そしてさっそくGoogle AdSense審査用に日記ブログ作ったわけだしね。
それをいちいちブログごとに設定していくのはどうなのよ。
というわけでようやく自分のrobots.txtの中身(一部)。

Disallow: */*/wp-admin/
Disallow: */*/wp-content/plugins/
Disallow: */*/*?*
Disallow: */*/*?

Googleウェブマスターツールで確認済み。
この記述でいいのかいまいちわからなくて結構ここでも時間食ったよね。
Googleウェブマスターツールでの確認のやり方も最初わからなくてさ。
いや今もアップロード前のテストの仕方今一わかってないままなんだけどさ。

ついでのおまけ。
日記ブログ用のWordPressはもともと日記サイトを置いていた(今も更新停止で放置されてる)Eってフォルダにやっぱりblogってフォルダを新たに作って構築。
日記サイトがEフォルダにindex置いてるサイトじゃなかったのが良かった。
日記サイトはEってフォルダの中のnikki(仮)ってフォルダに入れてたの。
Eフォルダも別の名前のサブドメイン指定してるから、サブドメイン直下にindex.html置くのを躊躇ったんだよね。
あ、いや、index.htmlはいちおう置いてあるけど。ほぼからっぽで何もないよって書いてあるだけのやつが。
というわけで

Disallow: /E/nikki/

というのも記述してあります。
こうしておけば、EのnikkiはクロールされないけどEのblog内(日記ブログ)はクロールされる。


 
ブログランキングに参加しています。応援よろしくお願いします。
にほんブログ村 小遣いブログ 主婦のお小遣い稼ぎへ

※ コメントは承認制です。表示されるまで暫く掛かる場合があります。

robots.txtの面倒くさい話」への1件のフィードバック

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です