このブログをはてなブログからWordpressに移行するにあたって、過去の記事を全て見直すことにして、4月後半からその作業をしていました。しかしこのブログを始めたのは2006年。そして総記事数は600。仕事をしながらというのもあったので、全部を確認するのに半月かかりました。
その中で一番修正の必要があり、そしてめんどくさかったものがあります。それは過去10年分のリンクの修正。
時間が経てば当然出てくるリンク切れ
ブログで記事を書き、リンクを張る時は多くの場合それが削除される時のことを考えることは少ないでしょう(まあ炎上系の話題で、その記事が削除される可能性が高い場合は別ですが)。ただ何年も経つと、リンク切れになってしまうものはどうしても出て来てしまいます。当時は想定が甘かったというのもありますが、そもそもそんな長くやっていると思いもしなかったので。
しかしリンク切れは、ブログの記事の内容を損ないます。というのは多くの場合はそのリンクも記事の内容に関するものであるため、切れたまま放置しておくと記事が欠けたようになってしまうためです。そうすると読む側にとっては内容理解、利便性の面でマイナスになってしまう恐れがあります(加えて昔はSEO的にマイナスとも言われていましたが、現在ではそれは直接的には関係ないという見方が一般的のようです)。故に修正の必要が生じます。
リンク切れの多かったサイト
では、リンク切れを起こしているのはどういうものか。特に多かった例を書いてゆきます。
報道機関のニュースサイト
朝日、毎日、讀賣、日経などのニュースサイトの記事は、ある程度経つと消えてしまいます。ただ何時消えるのかなどの基準は定まっておらず、わりと最近の記事でも消えてしまうものもあれば、昔の記事でも残っているものもあります。また、サイトによって大幅に異なってもいます(これについては後述)。ただ、自分の経験ですと主要新聞社でも4,5年経つとたいていの記事は消えてしまうようです。
infoseekに統合されたサイト(iswebなど)
以前も書きましたが、現infoseek系のサービスであるiswebのサービスが2010年10月31日をもって終了し、様々な個人ホームページが消失。
2007~2009年に更新量が多かったうちのブログではこれの影響は大きく、様々なサイトがリンクをしても楽天Infoseekトップページに飛ばされるようになりました(でも楽天infoseekってこの時くらいしか行かないような)。これの修正がかなり
各種ホームページサービス
2015年2月末日、OCNのホームページサービス「Page ON」が終了となりました。OCNはプロバイダとしてメジャーであり、そこを使ったホームページを使っている人も多かったので、少なからず影響がありました。
■参考:OCNのホームページサービスは2015年2月28日で終了します - 戯れ言
しかしホームページサービスの終了、縮小は相次いでおります。(バナーがやまかしいことで定評のあった)フリーティケットシアターは今年3月末で終了。また、@niftyの@homepageも2016年9月29日(木)15時でサービスを終了と告知されています。このサイトを使っている過去の資産は今のうちから保全しておく必要がありそうです。
倒産した企業・終了したWebサービス
10年も経てば、潰れた企業、もしくは終了したWebサービスは数多く出て来ます。それらはサーバやドメインの期限が切れれば当然の如くなくなりますね。うちではさほどではありませんが、これらを紹介しているサイトなどではかなり多くあるのではないでしょうか。
しかしただNot Foundになるならまだいいのですが、問題はドメインが乗っ取られていて妙なサイトにリンクしている例があることです。
リンク切れはSEOに影響ないらしいですが、このケースだと悪影響を与える可能性も否定出来ないので、注意すべきでしょう。
Amazon
Amazonアソシエイトのリンクですが、過去に何度かそのリンク形式が変更されています。多くはリダイレクトしてくれてるのですが、中には画像の表示がされなくなっているもの、またリンク自体切れているものが存在します。
このブログではあまりないのですけど、おそらく他のアフィリエイトリンクでも同じことが言えそうです。
終了した個人サイト
長期間放置されているサイトも多いですが、自ら消したらしくNot Foundになっているところも数多くあります。ちなみにはてなダイアリーは独自ドメイン不可で且つはてなブログ以外リダイレクトも出来ないため、そのまま終了しているところも多いです(一部意図的にリダイレクトさせてない人もいるけど)。
しかし以前Twitterのところでも書きましたが、希に既に亡くなっている人のサイトがそのまま停止している場合もあり(多くの場合無料のレンタルサイトやブログなど)、郷愁を覚えます。
参考
リンク切れ探知プラグイン「Broken Link Checker」
このように長年の間に数多くのリンク切れが生じています。実ははてなブログからWordpressに移転した多くの理由のひとつには、この修正がこちらのブログのほうが楽、というのがありました。それはプラグインで自動的にリンク切れを探知してくれるもの「Broken Link Checker」があったからです。
■Broken Link Checker — WordPress Plugins
ダッシュボードにリンク切れ数を表示してくれるほか、メール通知機能もあります。自分はWordpressブログを他にも持っているのでこの存在を昔から知っていたため、これをアテにしていた面があり、実際けっこう役に立ちました。
ただ、残念ながら完全ではありませんでした。というのは全てのサイトがリンク切れの404を返すわけではなく、前述のようにサイトそのものが書き換えられている場合(たとえば報道各社のニュース記事)は検知が難しいのです。リダイレクトは一応項目があるのですが、AmazonやYouTubeのリダイレクトも含まれてしまい、その数に埋もれてしまいます。
ちなみにBroken Link Checkerで発見出来ないリンク切れを見つけたら、そのドメインで検索かけて出て来たものがどうなってるか調べてみるのも手だと思います(ニュースサイトの場合はある一定の時期から過去とか)。
リンク切れの修正方法
そのような感じでしたので、今回はブログ移転で文章や画像を整えるのもあったために、イチからチェックし直しました。
では、リンク切れの時にどうしたかというのも書き添えておきましょう。
関連する文章ごと消す
リンクが意味合いが薄く、そのまま消してもいい場合、また他にリンクがある場合は消してしまいました。本文と関連するリンクが消えていた場合でも、且つその文章が余分であった場合も同じ感じで。
代替リンクに張り替え
ニュースの場合で、且つ本文がその記事よりもニュースに焦点を当てており、変えても影響ないと考えた場合は他の生きている記事に張り替えます。まあ他で生きているケースが少ないのですが。
アーカイブ利用
Internet ArchiveなどWebアーカイブを利用してそちらにリンクするというもの。ただこれも絶対残っている訳ではありません。特に今回はだいぶ前のになりますので特に。あと著作権の問題も絶対生じないとは言えないので、積極的には使わない感じにしています。
「リンク切れ」と表記
どうしても見つからない場合、リンクタイトルだけ残してリンクを解除し「※リンク切れ」と表記しました。最終手段ですが、タイトルだけで内容が伝わる場合もあるので。ただ、リンク先の文章を踏まないと内容が通じない、誤解が起きそうだと判断した場合は、文章で大幅な注釈をつけるか、エントリー毎消滅させました。
消えにくいニュースサイト
そんな感じでなんとか修正し、だいぶリンク切れもなくなったと思います。疲れた……。
しかし、時間が経てば当然リンク切れもまた生じる訳で、先のBroken Link Checkerなどを利用しながら定期的に見てゆくしかないでしょうね。
ただ、ニュース系記事の中にはリンク切れを起こしやすいものと起こしにくいものがあります。テレビ局系のニュースは新聞社よりも早く、それこそ数日で消えますが、IT系のニュースサイトではそれこそ20年近く目のニュースまで生き残っているところもあります。同じニュースの場合その中から消えにくいものを選んで張るというのもひとつの手でしょう。
まだまとめている最中ですが、他のブログで報道機関のニュースサイトリストとそれに伴う消えにくさを書きましたので、必要あればご参考に。
余談
ちなみに自分的に一番恐れているのは、はてながはてなダイアリーを終了した時。そうすると更新停止しているサイトは多数リンク切れが生じることが予想されます。2元サービスをやっていると過去のが切り捨てられるのはよくあることなので。
まあいつかは来るかもしれませんが、出来るだけ先にしてほしいものです。
追記
ちなみにBroken Link CheckerはWordpressのプラグインで他には利用出来ませんが、一応リンク切れを探知するツールなりWebサービスというのは存在します
■参考:リンク切れやHTMLなどのクオリティ自動チェックツール8選 | 人手に頼らないWebサイトの戦略的品質管理指南 | Web担当者Forum
Wordpress以外でリンク切れを見つけたい時に試すのもひとつの手です。ただ検知が遅いなどデメリットもあるので、自分のブログにあうものを探した方がよいでしょう。