トップ «前の日記(2007-05-18(金)) 最新 次の日記(2007-05-21(月))»

hΛlの使ってるアプリ関係のメモ

>>hΛlの女好き日記

2007-05-20(日)

改心して、Googleのウェブマスターガイドラインを読む

「ハァ?SEOだァ?Google様だァ? まーたまた通ぶっちゃって」と、ウェブサイトで飯食ってるわけでもないだろうに、そういう横文字や新語が好きな連中が巷に溢れてるのを斜に構えて見てたわけですが。今回、ここのじゃないけど、別のサイトのお引越しにあたって、ロボット対策、特にGoogleへの心構えみたいなものを目にする機会が増えて、まぁ、そういうのをつらつらと眺めたり、その実際の動きを見に、自分とこのサイトでのGoogleボットの動きとか追ってたりしてたんですが、うーんと、まず、単純に検索結果には載ってほしいわなってのは、横文字、新語好きじゃなくても等しく思うとこだろうと(自己肯定 笑)。で、きちっと、あるいは頻繁にインデックスされるかどうかは、ボケーとしてたり、知らないうちにGoogleボットに嫌われることしてたりなんてことで、けっこう変わってくるらしいということに、なんとなく気づきだし。下にある Google によるウェブマスター向けのガイドラインズ、このへん、読んだのが決定打でしたねぇ。

◎Webmaster Help Center - Webmaster Guidelines

「これはよくない」というのが、わりと細かく書いてあるんだけど、こういうの全てが、サイトに対するペナルティとして加算されて、それが結局、ボットの行動、ページの回収の仕方を決めていくのだろうと。日本語のページがないのは、IT系じゃないし、先端情報を追ってもいない普通〜のサイト管理者にとっては、かなりハンデになりそうですが。いろいろとガツガツしてなきゃ、こんなのまで読まないもんね(笑)。

例えば、デザイン&コンテンツガイドラインズ(Design and content guidelines)。このへんは、Googleボット対策じゃなくても基本的なところかもしれないな。

  • 「わかりやすい階層構造とテキストリンクを」(イメージリンクよりもテキストリンクを推奨)
  • 「リンク切れがないようにして、正しいHTMLで書け」(404を頻繁に返したら大幅減点くらいそう)
  • 「TITLEとALTタグは具体的に、そして正確に」(画像と文章の関連性も点数化してるのかな)
  • 「ユーザーにサイトマップを提供しろ」

テクニカル・ガイドラインズ(Technical guidelines)のところは、けっこう頭に入れておいたほうがいいかなってものが多かった(私には)。

  • Lynxなどのテキストブラウザでも見ることができるサイトを作れ(ロボット目線で作れってこと)
  • 「JavaScript, cookies, session IDs, frames, DHTML,Flash は検索エンジンのクロールの妨げになる。ロボットには、session ID や arguments なしでサイトを廻れるように許可しろ。」(何様? … あ、Google様ね。。)
  • 「おまえのサーバーが If-Modified-Since HTTP header をサポートしているか確認しろ。ボットは更新チェックをするのにこのヘッダを見るんだから。」
  • 「見られたくないディレクトリがあるなら、robots.txt を活用しろ。」(robots.txt についてはガイドラインズに何回も登場するので、けっこう重要かもしれない。見て見ぬフリするロボットも多いというのが定説なので、今まであまり重視してなかったんだけど、Google など大手に対しては、robots.txt を大いに活用すべきか。)
  • 「検索エンジンから来たユーザーにはあまり価値のない検索結果ページ(search results pages)や動的ページ(auto-generated pages)は、robots.txtでクロールの対象外に指定しなさい。」(こういうの、自分は今まで、.htaccessで制限かけてたんだけど、それだと、403コードを返すわけで、もしかして嫌われてたか?)

【追記】cgi等による自動生成ページ、動的ページについて。
掲示板のログ、ウチでは、例えば bbs.cgi?board=livereport;action=showflat;start=0#1155 みたいなのも捕捉されてるけど、こういうのは、訪問者に有益なインデックスだからいいんだよねぇ? と思って調べたら、こんな記事がありました。
「サイト内検索はGoogleにインデックスされちゃいけない!?(search engine land) 」
今年の3月の記事なので、自動生成ページについてのこの方針、最近の変更みたいですね。検索結果を表示したページはロボットに捕捉させないようにコチラで手を打てと、そういうことでいいんだろうか。ウチんとこだと namazu.cgi か。アフィリエイトやECには関係ないんだけどね。それにしても、またしても、こちらにボット様の露払いをさせるのかいなという感じですね(~~;

クオリティ・ガイドラインズ(Quality guidelines)も、へ〜というのがけっこうあったけど、「こういうズルイのはいけないよ」ってのが多いですね。柱は、クローキング悪意のリダイレクトリンクの張り方アフィリエイト関連か。クローキングというのは、人間が見に来たときと、検索ロボットが見に来たときとで、違ったページを見せること。これは良くないと。リダイレクトはね、、これ、サイトの引越しについてのトピックで一番論点になってたとこだと思うけど、私も前やっちゃったことがあるんだよな(笑)。別サイトへのリダイレクトは、デフォルトで悪者とされるので、RedirectPermanent(301 Moved Permanently ステータスを返す)を使うのが良さそうだと、これがネット世論の今んとこの結論なんですよね。

Quality guidelines - specific guidelines に行って

  • 「隠しテキストやリンクの張られていないコンテンツはやめろ。」(そこまで指図されなきゃならんの? あ、そういうのは、あらかじめ、robots.txt で弾いとけばいいのかな。)
  • 「サブドメインなどで、マルチコンテンツを作るのはやめろ。」これについては、”How can I create a Google-friendly site?”のほうにも、「違うURLで、マルチコピーサイトを作るのはやめな」と書いてあるんだけど、ということは、ミラーサイトはもう作れないってことなの? このへんも、リダイレクトの件と同じで、悪意の人基準なんだよねぇ。どうも、腑に落ちない。

とまぁ、ザッと読んでみて、自分がやってたので、これマズかったのかなぁと思ったのは、Googleボットに来てほしくないところに、robots.txt で不許可にするんじゃなくて、.htaccess で見るな〜〜(403 Forbidden ステータス)っていう制限をかけていたこと。*1しかし、これは、403コードを返すんじゃなくて、robots.txt でクロール対象外にするようにあらかじめ指示しておいたほうが良いのかな(もちろん、その上で、制限はかけておくけど)。だって、.htaccessでの制限に全然触れてなくて、robots.txt のことばかり書いてあるんだもの。ちょっとこのへん不明ですが、まぁ、robots.txt + .htaccess の二段構えでロックかけておけば問題はないのかな。

さて、ここまで、かけ足で読んでみて、個々のGoogle的ローカルルール(グローバルルール?)については気をつけることにして、もうちょっと、根っこの意識のところで大切かなぁと思ったのは、サイトが bot にどういうステータスコードを返しているかを常に意識しておくことについて。このへんは、ステータスコードについての記述をそこここに見て、本当に感じました。この認識を持ってないと、ものすごい誤解と混乱の元になりそうです。そして、このへん、とてもわかりやすく、印象的に解説してあるのが 「404 Blog Not Found:誤った404エラーページをつくるただ1つの方法」。私は、同じ著者の 「404 Blog Not Found:perl - 任意のURIのStatusを確認するAPI」をローカルで使用中(ウエブサーバで動かすのは、JSON::Syck というのがインストールされてないみたいで無理だったので)。個々のURLが実際にどういうステータスコードを返しているのかが、一目でわかるこのツールは大変便利です。

あとページランク上げたい関連については”How can I create a Google-friendly site?”に書いてありますが、このへんは、わりと聞いたことある話ばかりだし、自分ところにはあまり関係ないかなと(笑)。そんな感じです。

【追記】FeedBurner利用者のSEO失敗談(Yahoo!検索)
「FeedBurnerは超重大な事実を隠してる - たねちゃんズ12」というのが目についたので読んでみたら、これもリダイレクトでの失敗なんですね。しかも、大手のサービスベンダーの。一般ピープル何をかいわんやだなぁ。

Tags: Google

*1 実は、Googlebotへの制限は、User-Agent を * にして全てのUA対象にするんでは効果がなくて、”User-Agent: Googlebot”と明示しなければならないことを知らなかったこと、”Disallow:” を ”Disallow” とコロンなしで書いてたので、多分エラーになって効いてなかったこと、などで無いも同然の状態だったんです(笑)。

[]

最近の日記
最近のツッコミ
最近のtrackback
  1. エンジニアでありたい人の日記:[misc] sitema.. (2008-04-23(水) 21:56)

  

トップ «前の日記(2007-05-18(金)) 最新 次の日記(2007-05-21(月))»