ガジェット通信

見たことのないものを見に行こう

アーカイブされた自治体サイトを可視化してみた──NDLデータ利活用ワークショップレポート

DATE:
  • ガジェット通信を≫

国立国会図書館(NDL)が初のデータ可視化イベント開催

7月30日に国立国会図書館(NDL)が初のデータ可視化イベント「NDLデータ利活用ワークショップ~ウェブ・アーカイブの自治体サイトを可視化しよう~」が開催されました。

国立国会図書館というとまず思い浮かぶのが国内出版物の網羅的な収集ですが、本イベントでテーマとなったデータはウェブのアーカイブでした。

ウェブサイトの収集

今年でなんとすでに15年目。2002年からスタートなので残念ながらインパクは収集されていないのです。国内すべてのウェブサイトというわけではなくて、具体的には、公的機関(国の機関、地方自治体、国公立大学など)や民間(私立大学、政党、イベント、震災関連、電子雑誌など)のサイトを収集しています。

ウェブ魚拓ね、といわれればそういう側面もあります。Internet Archiveというサイトは存在していますが、第三者が運営しているものである以上、いつか突然終わってしまったり、データが破棄されてしまってもどうすることもできません。

実際に行政のウェブサイトは、プロジェクトが終了し予算がつかなくなるとそのまま閉鎖してしまいます。国立国会図書館によりますと、国の機関のサイトだけでも、5年前に存在したサイトの約60%が閉鎖されたとのことです。

たとえば、民主党政権時代の行政刷新会議で例の「2位じゃだめなんでしょうか」発言の議事録も一次資料がこちらにあります。
行政刷新会議ワーキングチーム「事業仕分け」第3WG

今回のイベントページ自体もすでにアーカイブされているというメタ構造。
アーカイブページ

たとえばこんなサイトが

国会の原発事故調査委員会のサイト

▲国会の原発事故調査委員会のサイト

平成23年3月11日に起きた東京電力福島第一原子力発電所事故の事故原因究明のための調査・提言を行うために、日本の憲政史上始めて国会に設置された独立した国民のための調査機関のサイトです。

委員会の様子(動画や議事録)や最終的な報告書が掲載されています。今年に入ってからでも月ごとに6〜8万アクセスあり、ダントツに参照されているコンテンツです。

委員会事務局の閉鎖に伴ってウェブサイトも閉鎖しましたが、その際WARPへの引き継ぎが告知されていました。

消えた自治体

▲消えた自治体

「平成の大合併」と呼ばれる市町村の合併が全国規模で行われ、市町村数は3232(平成11年3月31日)から1719(平成25年1月1日)へと減少しました。その結果、約1500の市町村サイトがインターネット上から消えてしまいました。これらのサイトについても閲覧ができます。

NDL自身で行った可視化の事例

ではこれらのデータから何が見出せるのでしょうか?NDL自身で行った可視化の例を紹介します。

都道府県サイトのリンク関係

都道府県の自治体サイト同士のリンク関係を可視化したものです。各県ごとに特徴があって面白いので、ぜひリンク先で操作してみてください。

▲都道府県サイトのリンク関係

保存した1万サイトの可視化

このWARPに、何のサイトがどのくらい保存されているのか、一目でわかるように可視化されたもの。

今回のイベントについて

今回のイベントで扱うデータは地方自治体という緩い枠を設けました。対象データ量の制限とイベント全体の統一感のためですが、その枠の中で自由に発想していただきました。全体で633テラバイト中の218テラバイトが対象に。

データ量が膨大なことと個々のウェブページの著作権に配慮し、ウェブページ内に含まれる言葉を形態素解析し集計したものや、ページのメタデータを利用することになりました。

電子情報流通課の橋詰さんは「国立国会図書館では、ここ数年、当館が提供する各種データの利活用の促進に取り組んできました。

“データ可視化”は、図書館の分野ではまだあまり知られていませんが、利活用の幅を広げる手法として、以前から注目していました。」と語ってくれました。

一般の人たちの課題意識や興味の方向できるだけ生かしたい、というのが企画した私たちの願うところでしたが、これを実現するためには事前準備がそれなりに大変です。

事前準備

イベントは1日間と時間が限られていたので、別な日にあらかじめ説明会を開催したり、汎用的なデータセットの事前用意、データ整形手法の事前整理、APIの使い方のガイダンスなどを行いました。

イベント参加者41名がAPIを同時期に使うと、どこくらいの負荷が発生するのかといった当日になってみないと読めない要素もありました。

Apache SolrでAPIを構築

データ量が膨大なことと個々のウェブページの著作権に配慮し、先述のWARPから、ウェブページ内に含まれる言葉を形態素解析し集計したり、ページのメタデータ(URIやページタイトル)にアクセスできるAPIをApache Solrを利用してNDLさんが構築しました。これは本年度もNDLが参画しているアーバンデータチャレンジへの応募にも有効です。

対象年は、2010年・2013年・2015年の3年間。対象自治体数は、現存する全自治体である1788(47都道府県、23区、20政令指定都市、770市、745町、183村)。これだけでも対象総ページ数は、約6千万ページにものぼります。

ツールのまとめを用意

今回の内容にあわせて、ツールの選定コストや学習コストを下げるため、案内を用意しました。対応するデータフォーマットと可視化されるものの種類、利用形態などをリスト化しました。

データ整形のコツを用意

たとえば今回、データの共通IDとして標準地方コード(五桁)を採用しました。このIDを持ったデータセット同士は楽にマージすることができるのですが、このIDを持っていないデータセットや、持っていても六桁であった場合に素早く作業ができるよう、手段を一箇所でまとめて案内するようにしました。
「NDLデータ利活用ワークショップ~ウェブ・アーカイブの自治体サイトを可視化しよう~」ティップス

ツール

Carto

今回はネタが地方自治体だったことから、地図を使うととりあえず可視化できます。地図状に可視化するウェブサービスはいくつかありますが、頭ひとつ抜けたサービスの一つです。

▲Carto

データをアップロードすれば自動的に地図上へマッピングしてくれます。ただし位置を特定する緯度経度データが必要で、持っていないデータ用に都道府県名や市区町村名で標準地方コード(五桁)を引けるデータをあらかじめ用意しておき、Carto上でマージしてもらえるようにしました。

アップロードしたデータに応じて、実現可能な表現手法がリストアップされます。また、基礎的な操作はすべて無料で行うことができます。

コロプレスマップといって、統計データを表現する際に、行政区分ごとに色のベタ塗りで値の多寡を表現する手法があるのですが、Cartoでこれをやるには地形データファイルを別途読み込まなくてはならず、今回は整形済みの地形データファイルをあらかじめ用意しました。

QGIS

▲QGIS

オープンソースのデスクトップアプリで、地理空間情報の作成・編集・可視化・分析の可視化が可能です。デザイナー向けの説明としてすごくざっくり言ってしまうと、アドビのInDesignのようなアプリです。地形データや統計データを読み込んで、このアプリ上で可視化を行います。

Raw

▲Raw

デザイナーが重宝するRawというサービス。データをペーストし、チャートの種類を選ぶと、チャートが描画されます。細かいパラメータを調整して完成。SVG形式でのダウンロードも可能なので、イラストレータで調整して仕上げることもできます。

ほかにも

いくつかツールをスライドで紹介しているのでご覧ください。

参加した人たちの作品紹介

待機児童や保育園

使用ツール:Carto

自治体サイトでこれらの言葉が使われている数と、実際の統計データをCartoで比較しました。

「待機児童」について、自治体サイトでこの単語が使われている数がオレンジ色の丸の大きさで、厚生労働省が出している県ごとの待機児童を緑色の濃さで表現しています。だいたい揃っているが、山形県や福島県のように差がみられた県もあったとのことです。

保育園問題に興味があったので、「保育園」について自治体サイトでこの単語が使われている数を調べてみたものです。色の濃いところが多いところです。

畜産物

使用ツール:E2D3

畜産物に都道府県ごとの特徴があるのか、自治体サイトへの登場回数を調べてみて、E2D3というアプリを使い、棒グラフ化してみたところ、

ぶたさん、魚類、うしさん、とりさんのそれぞれに地域性があったとのことです。

東京にぶたさんが多かった理由については、調べてみたところ、ブランド豚に力を入れているからかもしれないことがわかったそうです。

勢力図として日本地図上の表現も。

結婚できそうな都道府県はどこか!?

婚姻、結婚、子育て、そういった言葉がたくさん使っている自治体ほど、そういった施策に取り組んでいるのではないか(≒より結婚しやすいのではないか)という仮説。

実際のデータとかけあわせるところまではできたが、可視化が時間内に間に合わなかった、とのことです。残念!

聖地巡礼(と地方創生)

使用ツール:Carto

「聖地巡礼」という言葉を使っている自治体を時系列で追ってみた。円の大きさが多さを表しています。

緑色が2010年、青が2013年、オレンジが2015年。2015年の爆発的な増加具合がよくわかったとのこと。

「聖地巡礼」でいくらぐらい予算を計上しているか探したが、「聖地巡礼」というキーワードでは計上されていないので特定が難しかったそうです。

ほかのデータを調べて、富山県南砺市、香川県観音寺市あたりが数千万円程度の予算を計上していることが確認できたとのこと。地方創生は残念ながら手が回らなかった、とのことです。

自治体を元気に!レジャーをテーマに

使用ツール:Apache Sonr、Banana

自治体を元気にしたい。そのためには海外からの観光客が楽しめるものを探せるためのウェブサービスが作れないか、と考えたそうです。

WARPで使っているApache Sonrと連携して使える可視化のためのオープンソースのライブラリ、Bananaで可視化してみた。NDLのSonrとは直接つなげられないため、ローカル環境でSonrを用意してから行ったとのこと。したかった検索は「レジャー」「川下り」「生垣」など。

あわせて自治体が出している助成金を可視化しようとしたが、データの整形に時間がかかり、こちらは可視化までには至らなかった、とのことでした。

ゆるキャラグランプリで一位になったゆるキャラたちの行方は?

使用ツール:D3.js


ひこにゃんの活動記録

ひこにゃん、くまモン、バリィちゃん、さのまる、ぐんまちゃん、出世大名家康くんetc…といった人気のゆるキャラたちが、ゆるキャラグランプリで一位になるために何をしているのか、一位になったあと何をしているのか、行方を調べてみたとのこと。

本拠地の自治体以外の自治体にも登場していることが多いので、それを可視化してみた。登場回数がダンドツすぎて比較がしずらくなってしまうことを避けるために「一位を表示しない」機能がついている。

一位になったキャラたちは熊本県に出向いていることが多く、くまモンとコラボしていることが一位になるコツかも?

ゆくゆくは、殿堂入りしたゆるキャラの今後のみでなく、今年のゆるキャラグランプリの順位を予想できたらいいな、という野望(?)も語ってくれました。

推し動物

使用ツール:D3.js

各自治体が推している(サイトでよく使われている)動物を探してみて、コロプレスマップで表示した。イヌ、ライオン、パンダ推しなど。カピバラは埼玉がダントツで、カピバラ温泉があるからではないか、とのことでした。

遭難事故の多いところは?

使用ツール:Carto、RAW、イラストレータ

夏ということで「遭難事故」という言葉を切り口に。青森、静岡、長野、新潟、北海道あたりが濃かったとのことです。

Cartoで地図として可視化し、Rawでツリーマップを作り、両者をイラストレーターで一つにして仕上げたそうです。デザイナーにとってRawは便利だった、とのことです。

秘境はどこに?

使用ツール:自作ツール

最初からキーワードを決めきれなかったので、キーワード検索して結果を地図にその場で表示できるものをつくったそうです。

犬、猫、秘境などで検索してみて、秘境は秋田がかなり多かったことを発見!

防災・津波・噴火

使用ツール:D3.js、QGIS

311以降、防災・津波・噴火への意識は高まっているのではないか、とそれらのキーワードに関するページを可視化。

他の人の発表時に地震があったことも指摘。

「噴火」や「防災」といったキーワードの多さを、QGISで市区町村ごとに細かくコロプレスマップ形式で表示し、レイヤーのON/OFFで時系列でみてみたら変化がわかった、とのことです。




ごみ問題

使用ツール:D3.js

「粗大ごみ」「プラスチックゴミ」を含むページに、含まれている単語たちをワードクラウド化。

WC…WordCloudの略。



まとめ

途方にくれそうな膨大なデータの山の中から、なにか意味のある事柄を見出したいということで、今回はウェブページに含まれる言葉を形態素解析し集計したデータを利用し、可視化を行いました。

手法がもたらす制約はあったものの、現時点ではWARPの可能性を、一般の市民みんなで考えて可視化してみる、ということにフォーカスしたイベントとなりました。

今後の展開としては、あらかじめ誰かが抽出したWARPからの構造化データセットを元に、他のデータセットと組み合わせて知見を得る、といった展開も考えられるかと思いました。

国立国会図書館関西館・電子図書館課の前田直俊課長補佐は「様々な視点からのアイデアや可視化作品が生まれ、参加者及び主催者も含め想像していた以上の気づきや発見を得ることができました。また、多くの方にWARP活用の可能性を知っていただけたことも大きな成果だったと思います」と語っていただきました。

矢崎 裕一さん
株式会社ビジネス・アーキテクツにてアートディレクターを経験後、2008年に独立。データ・ビジュアライゼーションの実践的な手法や実例を紹介するサイト、visualizing.jpの運営、Code for TokyoやData Visualization Japanなどのコミュニティーの立ち上げと運営など、データ・ビジュアライゼーションの実践と普及に関する様々な活動を行っている。

カテゴリー : デジタル・IT タグ :
CodeIQ MAGAZINEの記事一覧をみる ▶
  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちらから
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。

TOP