なろう分析記録

『小説家になろう』をふくめ『ネット小説投稿サイト』を分析する。コード置き場,主にPython,javascript,たまに創作。

【はてなブログのsitemapについての調査】調べてみたら中身が書かれているのは「sitemap.xml?page=1」という結果に※追記あり2019.06.16

サイトマップが読み込まれない!

Google サーチコンソールサイトマップを登録したはずなのに何故かキチンと処理されていないということが分かりました。

調べてみると、はてなブログ関連でsitemapが正常に処理されないという話はあちらこちらで起きている現象の様です。

そこで今回はどうやったらサイトマップをグーグルサーチコンソールに登録できるのかを検証してみたいと思います。

まず現状の確認

グーグルサーチコンソールの中にある「カバレッジ」というメニューから、ブログ記事がGoogleにどれぐらい登録されているかが見れます。

結果

f:id:karupoimou:20190513092333p:plain:w400
カバレッジ

インデックス登録されていましたが、サイトマップに送信していません

と表示されています。

これはおそらく、グーグルのクローラーが勝手に記事を見つけてインデックス登録してくれただけであって、やはりサイトマップはきちんと処理されていない様子です。


登録すると良いとされる4つのxmlについて

当初は「sitemap.xml」だけを登録していましたが、調べてみた所はてなブログにおけるサイトマップは複数存在する様です。

色々調べてみた所、

sitemap_index.xml
sitemap.xml?page=1
sitemap_page.xml
sitemap.xml

上記の4つをとりあえず登録すると良いらしいので登録してみました。
重複して登録することによるデメリットはおそらく無いでしょう。

サイトマップ登録から2日後

f:id:karupoimou:20190513091548p:plain:w400
サイトマップ

4つのサイトマップを登録してから、2日後、再びグーグルサーチコンソールを見ると「sitemap.xml」だけが取得に成功していました。

やった!

と思いましたが、残念がらカバレッジを見ると、やはり記事の登録はうまくされておらずサイトマップは有効に機能していない様です。

もしかして「sitemap.xml」の中身は正しくないのでは?

そこで、サイトマップの中身について調べてみることにしました。

サイトマップの中に書かれている内容について調べてみる

4つのサイトマップを登録してみましたが、実際に重要なのは、その中にきちんとした内容が書かれているかどうかです。

これについてはネット上の情報があやふやなものばかりだったので、実際に1つずつ調査してみました。

f:id:karupoimou:20190513091704p:plain:w400
サイトマップの開き方

調査結果

sitemap.xml

f:id:karupoimou:20190513091738p:plain:w400
sitemap.xmlには何も書かれていない!

中に書かれているのは「sitemap.xml?page=1」へのリンクだけみたいですが、肝心の「sitemap.xml?page=1」は取得てきていない様です。
f:id:karupoimou:20190513100047p:plain:w400

sitemap_page.xml

f:id:karupoimou:20190513091846p:plain:w400
sitemap_page.xmlも同様

sitemap.xml?page=1

f:id:karupoimou:20190513091942p:plain:w400
sitemap.xml?page=1には色々書かれている
「sitemap.xml?page=1」には色々と書かれていることを確認できました

sitemap_index.xml

f:id:karupoimou:20190513092026p:plain:w400
sitemap_index.xmlに何も書かれていない

結論:いろいろ書かれているのは「sitemap.xml?page=1」のみ

調べた結果「sitemap.xml?page=1」のみが中身に色々書かれており、これが登録されないことには意味が無いということが分かりました。

ネットの上の記事では、複数登録したサイトマップは1週間ぐらいしたら取得完了となるとのことでしたのでしばらく待ってみようと思います。

うまく取得してくれると良いのですが……

2019/5/21 追記

やはり現状は変わらず。
sitemap.xmlだけは読み込まれている模様。

f:id:karupoimou:20190521170915p:plain:w400
サイトマップ

一方カバレッジを見る限り、自動クロールによってインデックス登録はされているらしい。

f:id:karupoimou:20190521171056p:plain:w400
カバレッジ

以下の記事にある様に、はてなブログでは別にサイトマップが機能していなくてもページURLはほぼインデックス登録されるらしいとのこと。

1つ確認していただきたいのは、Search Console のカバレッジでサイトがインデックスされているかどうかです。
Googlebot が URL を検出するのは2通りあって、ページへのリンクと サイトマップ です。仮にサイトマップがなかったとしても、Googlebot がページを辿って URL が検出できるサイト構造になっているのであれば、問題は発生しませんのでご安心ください。
URLがインデックスされているのであれば、あまり気にしなくてもいいのかなと思います
はてなブログのsitemap.xmlを送信しても「サイトマップを読み込めませんでした」となる - Search Console Community


なおこのサイトマップが読み込まれない問題は他のブログでも発生しているとのこと
【問い合わせ】はてなブログのサイトマップの不具合について【初心者必見】 - 僕は【戯れ記事《ゴト》遣い】

2019/06/16 追記

一ヶ月後ぐらいにようやく取得成功していました。

karupoimou.hatenablog.com

結論

この記事の結論は
「sitemap.xml?page=1」をサーチコンソールに登録すれば大丈夫ということです。

また、他のサイトマップも一緒に登録しておくことにデメリットはありませんので、不安な方は
4つとも登録しておきましょう。