静岡で進む図書館DX! 自治体サイト上のPDFを自動収集するクローリングシステム開発
![](https://getnews.jp/extimage.php?9135c73e18fbd4a521fe062ac4f9ceed/https%3A%2F%2Ftechable.jp%2Fwp-content%2Fuploads%2F2022%2F05%2FiStock-1314901269.jpg)
静岡県立中央図書館は、2021年度から静岡県立中央図書館がおこなっている「図書館DX実証実験」の一環として、静岡県内の自治体WebサイトにアップロードしたPDFを自動収集するクローリングシステムを株式会社Geolocation Technology(以下、Geolocation Technology社)と共同開発しました。
クローリングシステムにより、これまで人手で収集していたPDFを自動で収集することが可能になります。なお、公共図書館におけるクローリングシステムの開発は、全国初の取り組みとのことです。
45万件ものPDFを自動で収集
![](https://getnews.jp/extimage.php?15c5a24cc24677b8daf83260f8a99908/https%3A%2F%2Ftechable.jp%2Fwp-content%2Fuploads%2F2022%2F05%2Fsub1-61.png)
収集したたPDFの数は45万5133件。収集範囲はドメイン以下5階層目までですが、5階層内のHTMLにPDFへのリンク()があれば、収集範囲の対象階層外であっても収集します。
収集したPDFはリネームし、Googleドライブで収集した日付ごとに、収集元のドメインと同じディレクトリ構造(Webサイトの「トップページ」「コンテンツページ」などのつながりや構造)で保存。また、過去の複数の時点のデータを保管する「世代管理」もおこなっているとのことです。
過去には貸出カードのスマートフォン表示も
今回のクローリングシステムの開発は、2021年度から静岡県立中央図書館がおこなっている「図書館DX実証実験」の一環です。
静岡県立中央図書館は、図書館DX実証実験の第1弾として、2021年9月から貸出カードのスマートフォン表示を開始しました。
![](https://getnews.jp/extimage.php?e8393f249306d143c13ee60d3a4416a3/https%3A%2F%2Ftechable.jp%2Fwp-content%2Fuploads%2F2022%2F05%2Fmain-59.jpg)
続く第2弾では静岡県の電子申請サービス「ふじのくに電子申請サービス」を用いて利用者登録を可能とする「利用者登録等Web申込」、第3弾では株式会社紀伊國屋書店の電子書籍サービス「KinoDen」を活用して電子書籍を提供する「電子図書館」を展開しました。
そしてこのたび、Geolocation Technology社とともにクローリングシステムを開発。今後は、収集したPDFをもとにしたサービスの可能性を検証していく方針です。
PR TIMES(1)(2)
静岡県立中央図書館「【事前告知】図書館DX実証実験について 第2弾利用者登録等Web申込・第3弾電子図書館」
(文・Haruka Isobe)
![Techable](https://px1img.getnews.jp/img/archives/2019/08/origin_Techable.jpg)
ウェブサイト: https://techable.jp/
- ガジェット通信編集部への情報提供はこちら
- 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。