ガジェット通信 GetNews

見たことのないものを見に行こう

体験を伝える―『ガジェット通信』の考え方

面白いものを探しにいこう 本物を体験し体感しよう 会いたい人に会いに行こう 見たことのないものを見に行こう そしてそれをやわらかくみんなに伝えよう [→ガジェ通についてもっと詳しく] [→ガジェット通信フロアについて]

アーカイブされた自治体サイトを可視化してみた──NDLデータ利活用ワークショップレポート

国立国会図書館(NDL)が初のデータ可視化イベント開催

7月30日に国立国会図書館(NDL)が初のデータ可視化イベント「NDLデータ利活用ワークショップ~ウェブ・アーカイブの自治体サイトを可視化しよう~」が開催されました。

国立国会図書館というとまず思い浮かぶのが国内出版物の網羅的な収集ですが、本イベントでテーマとなったデータはウェブのアーカイブでした。

ウェブサイトの収集

今年でなんとすでに15年目。2002年からスタートなので残念ながらインパクは収集されていないのです。国内すべてのウェブサイトというわけではなくて、具体的には、公的機関(国の機関、地方自治体、国公立大学など)や民間(私立大学、政党、イベント、震災関連、電子雑誌など)のサイトを収集しています。

ウェブ魚拓ね、といわれればそういう側面もあります。Internet Archiveというサイトは存在していますが、第三者が運営しているものである以上、いつか突然終わってしまったり、データが破棄されてしまってもどうすることもできません。

実際に行政のウェブサイトは、プロジェクトが終了し予算がつかなくなるとそのまま閉鎖してしまいます。国立国会図書館によりますと、国の機関のサイトだけでも、5年前に存在したサイトの約60%が閉鎖されたとのことです。

たとえば、民主党政権時代の行政刷新会議で例の「2位じゃだめなんでしょうか」発言の議事録も一次資料がこちらにあります。
行政刷新会議ワーキングチーム「事業仕分け」第3WG

今回のイベントページ自体もすでにアーカイブされているというメタ構造。
アーカイブページ

たとえばこんなサイトが

国会の原発事故調査委員会のサイト

▲国会の原発事故調査委員会のサイト

平成23年3月11日に起きた東京電力福島第一原子力発電所事故の事故原因究明のための調査・提言を行うために、日本の憲政史上始めて国会に設置された独立した国民のための調査機関のサイトです。

委員会の様子(動画や議事録)や最終的な報告書が掲載されています。今年に入ってからでも月ごとに6〜8万アクセスあり、ダントツに参照されているコンテンツです。

委員会事務局の閉鎖に伴ってウェブサイトも閉鎖しましたが、その際WARPへの引き継ぎが告知されていました。

消えた自治体

▲消えた自治体

「平成の大合併」と呼ばれる市町村の合併が全国規模で行われ、市町村数は3232(平成11年3月31日)から1719(平成25年1月1日)へと減少しました。その結果、約1500の市町村サイトがインターネット上から消えてしまいました。これらのサイトについても閲覧ができます。

NDL自身で行った可視化の事例

ではこれらのデータから何が見出せるのでしょうか?NDL自身で行った可視化の例を紹介します。

都道府県サイトのリンク関係

都道府県の自治体サイト同士のリンク関係を可視化したものです。各県ごとに特徴があって面白いので、ぜひリンク先で操作してみてください。

▲都道府県サイトのリンク関係

保存した1万サイトの可視化

このWARPに、何のサイトがどのくらい保存されているのか、一目でわかるように可視化されたもの。

今回のイベントについて

今回のイベントで扱うデータは地方自治体という緩い枠を設けました。対象データ量の制限とイベント全体の統一感のためですが、その枠の中で自由に発想していただきました。全体で633テラバイト中の218テラバイトが対象に。

データ量が膨大なことと個々のウェブページの著作権に配慮し、ウェブページ内に含まれる言葉を形態素解析し集計したものや、ページのメタデータを利用することになりました。

電子情報流通課の橋詰さんは「国立国会図書館では、ここ数年、当館が提供する各種データの利活用の促進に取り組んできました。

“データ可視化”は、図書館の分野ではまだあまり知られていませんが、利活用の幅を広げる手法として、以前から注目していました。」と語ってくれました。

一般の人たちの課題意識や興味の方向できるだけ生かしたい、というのが企画した私たちの願うところでしたが、これを実現するためには事前準備がそれなりに大変です。

事前準備

イベントは1日間と時間が限られていたので、別な日にあらかじめ説明会を開催したり、汎用的なデータセットの事前用意、データ整形手法の事前整理、APIの使い方のガイダンスなどを行いました。

イベント参加者41名がAPIを同時期に使うと、どこくらいの負荷が発生するのかといった当日になってみないと読めない要素もありました。

Apache SolrでAPIを構築

データ量が膨大なことと個々のウェブページの著作権に配慮し、先述のWARPから、ウェブページ内に含まれる言葉を形態素解析し集計したり、ページのメタデータ(URIやページタイトル)にアクセスできるAPIをApache Solrを利用してNDLさんが構築しました。これは本年度もNDLが参画しているアーバンデータチャレンジへの応募にも有効です。

1 2 3 4 5次のページ
CodeIQ MAGAZINEの記事一覧をみる
  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちらから
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。

山寺宏一&高木渉で『ポプテピピック』

GetNews girl / GetNews boy