2006年05月04日

Seesaaブログが検索エンジンに弱くなった理由

05月20日(追記・訂正)
Seesaaの5月19日のサーバ増強後、「robots.txt」が削除されたようなので、このエントリーの内容は「間違い」になりました。


家は、貧弱なブログなので多くの人の目には触れないかもしれませんし、内容がアレなのでこの記事の公開を躊躇してましたが、こっそり報告のアフィリさんが速報したので、便乗して公開する事にしました。


Seesaaブログをお使いのみなさん。
最近、検索エンジン経由のアクセスが少なくなっていませんか?

ズバリ結論から書くと、今のSeesaaブログは一部のページしかクロールされていません。
恐らく、それがアクセスの少なくなった理由ではないでしょうか。



1、理由
まず、以下のURLを作って、アクセスしてみてください。
http;//[自分のブログアカウント].seesaa.net/robots.txt
簡単に言うと、自分のブログのトップページのURLの後ろに「robots.txt」を付けてアクセスしてください。
そこに表示されたものが、robots.txtの中身です。

robots.txtとは、クローラーなどのロボットにクロールの仕方を指示する物です。
これに従わない行儀の悪いロボットも存在しますが、大手の検索エンジンのロボットは指示通りにする事が多いようです。

さて、robots.txtの中身ですが、「このブログ」以外にも「Seesaa障害報告ブログ」や、「Seesaaからのお知らせブログ」などでも中身は同じで、Seesaaの全てのブログで同じ設定になっているようです。
簡単に意味を説明すると・・・

User-agent: *     (あらゆる全てのロボットに対し)
Disallow: /category/  (カテゴリディレクトリ以下全てのクロールを禁ず)
Disallow: /archives/  (過去ログディレクトリ以下全てのクロールを禁ず)

・・・と言う事です。
逆に言うと、今のSeesaaでクロールする事を許しているのは、トップページと記事ページのみ、なのです。

通常、検索エンジンのクローラーは、トップページからリンクを辿りながらクロールしていくと言われています。
しかし、robots.txtによって禁止されているページはクロールしませんし、インデックスもしません。
なので、禁止されているページに有るリンクの先もクロールして無いはずです。

普通にブログを作成している場合、トップページに表示される記事(記事へのリンク)は最大20個程度です。
カレンダーを表示していてもその月だけで、せいぜい30個程度です。
他の、過去に書いた記事へは、一旦、カテゴリページや過去ログページを中継してリンクしている物が大半のはずです。

その中継ページは、上記の「robots.txt」によってクロールする事を禁じられているのです。
つまり、どんなにページ数が有っても、何度クロールに来ようが、トップページから直接行ける、最新30個分ほどの記事しかクロールされないわけです。
さらに、googleのwebマスター向け情報によると、リンクの辿れなくなったページはインデックスから削除されていきます。
新しい記事を書くたびに、トップページから消えた古いページが、インデックスから削除され続けていれば、検索エンジン経由のアクセスは少なくなるハズです・・・

信じられない人は、google、yahoo、msnの検索エンジンで、自分のブログを検索して、「カテゴリページ」や「過去ログページ」がインデックスされているか確認してみてください。
インデックスが残っていても、日付が極端に古くて更新されて無かったり、「リンクが辿れなくなった為にインデックスから削除される」のには3〜4ヶ月程かかるようです。
ちなみに、Seesaaで私の管理しているブログの、そこら辺のインデックスは、もう無くなっています。

これらは主にgoogleの場合ですが、yahooでも、msnでも、「カテゴリページ」や「過去ログページ」がインデックスから削除されているので、かかる時間は違っても、いずれ同じようになると考えられます。
他にも、検索エンジン経由のアクセス数が減少した理由は有るかも知れませんが、この「robots.txt」が最有力と思われます。



2、対策
対策はかなり難しいです。
100%解決するには引っ越すしかないです。
現在、「robots.txt」をユーザーが自分で書き換える事は、Seesaaでは出来ません。
運営側に直訴するにしても、意味が有ってこうなっているハズなので「Disallow:」を解除してくれるとは思いにくいです。(詳しくは「3、真の理由を妄想してみる」で)


「robots.txt」が現在の設定でも利点が有る所を、無理矢理考えてみると「テキストの同一性が低くなる事」に、SEO的な利点は有りそうな感じはします。
これは、「同一サイト内」で「似た内容」の「別ページ」が有る場合、どれか1ページしかインデックスされない(されにくい・どれもされない)事があると言われています。
それでもSeesaaではディレクトリが別だったので、内容がかぶっていても、ある程度はテキストの同一性は回避されていたと思われます。
普通のブログの場合、「トップページ・記事ページ・カテゴリーページ内・過去ログページ内」の全てで、同じ内容がかぶるので、「robots.txt」でカテゴリと過去ログを弾くのは、利点が有ると言えなくもないでしょう。


しかし、クロールされないのでは意味がありません。
対策は、いくつか力技が考えられますが、非現実的です。

クロールされるには、そのページにリンクが有れば良いのだから、全記事をSeesaa以外にトラックバックする・・・
あからさまにスパム以外の何者でもないですね。
この記事を公開するか迷った理由でも有りますが、Seesaaからのスパムが増えて他のブログに迷惑がかかりそうですし、あっさりアカウントごと削除されそうです。

トップページから、全記事にリンクする・・・
ページ数が多いと、ムチャですね。
根性でリンクしたとしても、今度は「1ページ中、リンク数100個以下」の法則に引っかかりそうです。
この法則は、またまたgoogleのwebマスター向け情報によると、1ページ中のリンク数を100個以下にしないとクロールされにくい、と言う物です。
他の検索エンジンでも、リンクの数を適切な数に抑える、と言う表現を使っていますが、やはり100個以下位が良いようです。
ちなみに、自動ツールで何百と記事を書く人もいますが「robots.txt」が無かったとしても、この法則に引っかかってやっぱりインデックスされないと思います。

結局、どんな対策も手間がかかるだけで、「ディレクトリの別なページからリンクが有る事のSEO的な有利さ」が失われた事に変わりないので、効果がどの位有るか疑問です。
やっぱり、100%解決するには引っ越すしか無いかもしれません。



3、真の理由を妄想してみる
この「robots.txt」の存在に気付いたのは、今年(2006年)の2月初め頃です。
記憶では、去年の夏ごろ調べた時は存在していませんでした。
その後、時期はハッキリ覚えていませんが、「http;//[ブログアカウント].seesaa.net/robots/txt」と言う、ルートデイレクトリ以外の変な所(効果の無い場所)に有るのに気付きましたが(今も有る)、2005年の年末でも、各検索エンジンに「カテゴリページ」がインデックスされていたのは確認しています。
それが今年に入り、検索エンジンから「カテゴリページ」がインデックスから消え、記事ページのインデックス数も減り始めました。
つまり、今年の1月から2月位に「ブログユーザーの知らない間」に設置されたようです。

しかし、なぜユーザーにとって良い事の少ない設定を、何のアナウンスも無く密かに導入したのでしょうか?

ちょうどその頃、Seesaaは壊れ気味で非常に重い時期でした。
アクセスログを見ても分かるように、ロボットのアクセスは非常に多く(場合によっては、全アクセス数の半数近く)、負荷を減らす為の導入だったのではないかと思います。
現在は、2月中旬のメンテナンスのおかげで軽くなりましたが、「robots.txt」導入でクロールが減り、結果アクセスが減ったのも、軽くなっている理由かもしれません。

だとすれば、運営に直訴しても「Disallow:」を解除してくれるか微妙です。
もし解除してくれたとしても、「robots.txt」でなくサーバレベルでアクセスコントロールされた場合、アクセス数の変動理由を推測しにくくなりSEOが難しくなる等、さらに状況が悪くなりそうです。
それは、この記事を公開する事を躊躇した、もう一つの理由です。



4、キバを剥くSeesaa?
名指しでスパムブログと言われたSeesaaを取り巻く環境は、ユーザーにとっても不利益と言えます。
改善に本腰を入れるつもりなのは、最近のスパム対策強化を見ても感じ取れるので、自動ツールやスパム等の、迷惑行為に対しては、どんどん対策してもらいたいです。

しかし、その「おしらせ」の中にチョット気になる部分も・・・

また今後、自動アフィリエイトツールや記事の自動作成ツールの使用が確認または疑われる場合には、システム上の制限によりブログサービスの使用を拒否する対策を行う可能性がありますことを併せてお知らいたします。なお、システム上の対策を行う場合の詳細に関しましては、対策の有効性確保のため公表を差し控えさせていただきますのでご了承ください。

・・・と、有ります。
これは、「個々のブログに対しシステム的に対応が取れる事」を表していると、言えそうです。
と、すれば、規約違反に対する制限以外でも、個々のブログのアクセスコントロールをする事も可能なのではないでしょうか?

具体的には、ユーザーエージェントによって振り分けをする事が考えられます。
簡単に言うと、自分のブログにパソコンからアクセスするとPC用のページが、モバイルからアクセスするとモバイル用のページが見える、アレです。
これをロボットのユーザーエージェントに対して使えば、全域をクロールをさせない事も可能なはずです。
たちの悪い事に、「robots.txt」とは違い、サーバレベルのアクセスコントロールは、ブログユーザーには、その存在を知る事すらできません。
理由のわからないままクロールが無くなり、インデックスが減り、結果的にアクセスが減る・・・
これは妄想に過ぎませんが、非常に恐ろしい話です。



この「robots.txt」の設定は、ブログユーザーがSeesaaに対し、疑心暗鬼を起こさせる程の事だったのかもしれませんよ。

posted by おいら at 14:11| Comment(4) | TrackBack(0) | ブログ関連 | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。


×

この広告は1年以上新しい記事の投稿がないブログに表示されております。