で、このブログの記事URLをすべてカスタムURLに変更した際に、URLを消し忘れたため、クローラがNot Found (404)のページをクロールしようとしては失敗すると繰り返していて、インデックスの進みが悪くなるし、広告もつかなくなったし散々という話をしました。
404を返し続けると、クローラがまともに動かなくなるというデメリット以外に、「存在しないページを保持している」ということで、ドメインの信頼度を下げられる危険性があるという話があります。そのため、出来るだけ早く404のページを忘れていただくことは必須なのです。
404を返し続けることで、検索システムはやがてそのページが存在しないということを確定させ、検索インデックスから削除します。しかしそれにはかなり長い猶予期間があると言われています。その理由は、404を「たまたま返しているのかどうか」を判断出来ないからと言われています。そのため、特殊なGone (410)というエラーコードを返してあげることで「意図的に消しましたよ」ということを検索システムに伝えることが出来、検索インデックスからの削除が早くなるという話もありますが、少なくともはてなでは削除したページが410を返す方法はわかりませんでした。
なので、手動で検索インデックスを削除するお願いをすることとします。(これに加えて410を返せるとなお良いのですが)それは、以下のツールから削除した記事のURLを入力すると出来ます。どのリクエストも1日以内で素早く処理されるため、ストレスはなかったです。
https://www.google.com/webmasters/tools/removals
ここで重要なことは、「検索インデックスに残されているページは一つ残さず削除依頼すること」です。これは、歯きれいに磨く時に、プラークを赤くする薬をつけてそれを残らず磨き上げるのに似ています。
私は、「削除するのを忘れた」と気づいた時には、もともと持っていたページのURLリストを手に入れることは出来ませんでしたから、
当初、
- Google Analyticsに残っているURLを消していく
- クローラにNot Foundと教えられたURLを消していく
という作業をちまちまと続けていたのですが、前者はもちろん、めっちゃにアクセスされないページは漏れてしまいますし(このブログは一度大量に記事を削除しましたが、それらの記事にはアクセスされていないものもありました)、後者はクローラがエラーを吐く頻度が低くて時間がかかるのと、クローラが教えてくれるリストには重複があり、作業に無駄がありました。
最終的に見つけたおそらく最善の方法は、
グーグルでsite:
をつけて自分のサイトを検索することです。
こうすると、自分のサイトの記事のうち、インデックスされているものがすべて表示されます。その上で、古いURLを一つずつ削除していくのが最善です。
記事URLを全部変更するという人はあまりいないと思いますが、時々記事を消す時はあると思います。その時に、その記事が404のままずっと残っていることは上に述べたようにドメインの信頼度を下げられる危険性があります。従って、早急に削除する必要があります。この記事では、そういうわりと一般的なケースにも役立つと思ったことを共有しました。最後まで読んでいただきありがとうございます。