トップ «前の日記(2007-05-20(日)) 最新 次の日記(2007-05-22(火))»

hΛlの使ってるアプリ関係のメモ

>>hΛlの女好き日記

2007-05-21(月)

Google をターゲットにしたSEO…相手の出方を見るには「ウェブマスターツール」を入れるのが第一歩

「掲示板とイメージはインデックスされたくなかったので、robots.txt でそこらへん弾いてみたら、ピタッとロボットが来なくなってしまった気がするんですよ、特にGoogle。」

なんて、前のエントリで書いたものの、制限領域を増やしたら、bot がクロールする領域が減って、飛来も減るわけだし、ちゃんと調べないと正確なところは、わかりませんよね。というわけで、制限する前と後のロボットの飛来状況を集計してみました。

5/14 HOST+ロボットの集計結果
5/18 HOST+ロボットの集計結果

数自体はめっきり減ってます。しかし、上に書いたような理由、それから、一通りクロールし終わった頃合いかもしれないという理由で、やはり、これだけでは判断しようがなさそうです。というか、Google研究(笑)のついでに「ウェブマスターツール」というのを使ってみたんですが、これが、Bot の受け取ったHTTPエラーや Bot のクロール率、robots.txt の解析(Bot にどのように伝わっているか)を公開してる上に、クロールの頻度まで選べるんですね。

Googleウェブマスターツールの画面

今、問題にしている、クロール率とサイトのペナルティの状況との関連性、あるいは、サイトが今どういうペナルティを受けてるのかを測る資料にはならないけど、とりあえず、現状についての Google との、ある程度の共通認識の土台は提供してらえると。数値付きで、ロボットがどういうふうにサイトを巡回しているかとか、サイトから、どういうステータスコードを受けとっているかとか。他の機能として、URLの削除も4月からできるようになったみたいだし(「Google、URL削除機能をウェブマスターツールに統合 :: SEM R」)、サイトがあるんだったら、これを使わない手はないですね。

そして、さらについでに、sitemap (「サイトマップ生成ツールを使用する場合」)も利用してみたんですけどね(笑) python でサイトマップ生成ツールを回したり、それをクロンジョブで動かしたり、面倒くさいわりには(手書きで最初からってのはさらに面倒そうだったし)、「作ってくれたからって、全てのページをインデックスするわけではありませんよ」とか書いてあるし(悪者対策?)、こっちのほうは今、使いながら様子見です。と書いたところで、sitemap の説明にリンクを張ろうと再び検索したら「URL収集機能付きバージョン - サイトマップXML自動生成ツール」なんてのを発見(ドーン)。「こっちのほうが簡単!やられた!」と思ったものの、さらに、よく読んでみたら、

改良予定

  • URLを収集しない拡張子やディレクトリを指定できるようにする。
  • 対象サイトのサーバーへの負荷を低減するため、アクセスのインターバルを指定できるようにする。
  • URLを収集しつつ、サイトマップの詳細設定をできるようにする。

とあって、これらは、設定ファイル(config.xml)にさえ書けば、pythonスクリプト(sitemap_gen.py)を使ってできるので、python ツールのほうが、使い勝手がいいといえばいいんだろうか。ただし、サーバーでスクリプトを走らせられない場合は、この自動生成ツールのほうは全て Google にお任せなのでありがたいよね。そうそう、全然関係ないけど、pythonツールに含まれている urllist.txt の凡例のところに、Emacs って文字を見つけたのが、なにげに Googleのイメージプラスになりました。単純(笑)。

【追記1】
tDiaryにも、google_sitemaps.rb(Google sitemap plugin for tDiary - (`・ω・´)つ TAGURAIN (2006-06-28))というのがあるのをさらに発見。おぉ、これで、日記の sitemap も書いたらすぐに自動的に作られると。あとは、ウェブマスターツールのページの「sitemapの追加」で場所を教えてあげればいいみたい。反映ちょっとは早くなるかな〜。

【追記2】
FeedburnerとYahoo!ブログ検索の件の真相は

Feedburnerがインデックスされない原因は、Yahoo!ブログ検索が『RSSのアドレスが、ブログや各記事のドメインと異なる』場合インデックスしないというポリシーで運営されているからのようです。

[「FeedburnerがYahoo!ブログ検索にインデックスされない件」より引用]

ということらしい。この件については、昨日、Feedburnerに非があるのではなくて、Yahoo!のそういうポリシーがおかしいのだと書いてたのは「FeedBurnerは何も隠していないと思うよ - Ogawa::Memoranda」だった。再読。なるほどねぇ。

<link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="rss20.xml">

こういう感じのlink要素ですよね。これがあればそれを信頼するという解決法もあるじゃんって書いてあって(元のblogそのものが著作権違反のコピーだったらそれは別の問題だしね)、それもそうだなと思いました。一応、書いてしまった手前フォロー追記をしておきます。もぉ、たいへん。

Tags: Google
[]

最近の日記
最近のツッコミ
最近のtrackback
  1. エンジニアでありたい人の日記:[misc] sitema.. (2008-04-23(水) 21:56)

  

トップ «前の日記(2007-05-20(日)) 最新 次の日記(2007-05-22(火))»