【Archivebox】セルフホスティングのWebアーカイブで情報が消える心配なく保存

Webの情報は豊富にあるけど閲覧できる時期は案外短い(場合もある)。

ドメインが更新されずにアクセスできなくなっていたり、URLそのものは残っていても検索に表示されなくなったりと、そんな心配をしなくても済むように個人的に重要な情報はアーカイブして保存したいと思います。

Archivebox

Archiveboxは情報が絶えず変化したり消えたりする時代において、将来にわたって参照できるようにWebコンテンツを保存するアプリケーションです。

保存したいURLを入力し、数回クリックするだけでウェブページや画像・動画等のマルチメディア、さらにはウェブサイト全体を簡単に保存できるため、貴重なWebコンテンツが時間の経過とともに失われたり忘れられる(検索結果に表示されなくなったり)ことが無くなります。

インターネットアーカイブ(Wayback Machine)や他にも同様のサービスは提供されていますが、セルフホスティングは「用途が限られず(著作権の範囲内で)」「個人的な目的」で「安全」に情報を保存できます。

使用上の注意点

現在公開されている情報では大きな問題になることは少ないと思いますが、気になる点も少々あります。

個人的な調べものの範囲でも許可されるものかどうか、具体的には法律の専門家の判断も必要だとは思っています。

非公開となった情報を保存させない権利は?
クローリングを拒否しているWebサイトのアーカイブ
もちろん、公開されている情報であっても著作権等は侵害しないように利用 など

「後で読む」サービスとの違い

「Pocket」や「Instapaper」、「リーディングリスト」などの後で読むサービスでもコンテンツをダウンロードして、オフラインでも閲覧できます。

テキストデータや記事上の画像データは「後で読む」サービスの方が手軽に使えますが、Archiveboxは動画や音楽等も含めてWebサイトの構造を保ったまま保存できる点がメリットです。

また、表示されているページだけでなくリンク先の情報も保存できるため、リンク切れで情報が小間切れになる心配も無くなります。

インストール手順

リバースプロキシ + Docker

使用感・感想

簡単に使ってみただけですが、以下のような感じです。

  • yt-dlpを使うので動画のダウンロードもローカルで可能 → Alltubeよりも安全に使える
  • 基本的にはコマンドラインでの利用が前提(Web UIでも簡単な操作は可能)
  • サーバーリソースを効率的に利用するにはArchivebox以外のOSSが必要 → 必要な知識が多い
  • Webサイトの1階層深いリンクをアーカイブするだけでも結構な量になる → ストレージ容量の確保が必要
  • ArchiveboxはWebサイトをアーカイブするだけなので、有効に使うには検索エンジンの導入も考慮

残念ながら、後で読むサービスとの連携で自動取り込みは動作しなくなっていました。

リーディングリストが増えすぎて整理しきれず(チラ見はしてる)、いつの間にかWebページが消えていことがあって導入したのでもう少し挑戦しようとは思っています。