山下泰平の趣味の方法

これは趣味について考えるブログです

次世代デジタルライブラリーとのつきあい方

次世代デジタルライブラリーの機能が充実してきた。

次世代デジタルライブラリー」は、国立国会図書館次世代システム開発研究室での研究を基に開発した機能を実装した実験的な検索サービスです。

国立国会図書館デジタルコレクションで提供している資料の中から、著作権の保護期間が満了した図書資料・古典籍資料全部(約33万6千点)が検索可能です。

というわけで使いまくっている。まだまだベータ版なので多少は雑なところもあるけれど、普通に使えている。使い込むうちに検索のコツも解ってきた。

例えば『永田一茂』で検索する際に、『永田一』でも検索するとヒット数が増える。

f:id:cocolog-nifty:20220323124208p:plain

f:id:cocolog-nifty:20220323124213p:plain

OCR が『永田一』を誤読することはほぼないけれど、『茂』は間違える可能性があるといった考え方である。もちろんノイズを拾うこともあるので善し悪しだが、絶対に情報を拾い落したくない時にはこうやって検索する。

名前の場合は『茂一田永』なんかで検索することもある。古い資料だと横書きが右横書きの場合があって、ほとんどは機械的に処理してくれているが、縦横書きが混在している資料だとたまに誤認してしまうようだ。

f:id:cocolog-nifty:20220323124252p:plain

ずっと検索していると OCR がどう誤認するか傾向が分かってくるので、適宜文字を変えたりしている。本当は正規表現なりワイルドカードなりが使えると最高なのだが、今のところはそういう機能は付いてない。

近代デジタルライブラリー(今の国立国会図書館デジタルコレクション)が登場した時に、これまで3年くらいかけていたことが、10日くらいで調べ終るといった感覚があった。これは私の調べ方が、古書店なりヤフオクなりで偶然見つけた資料を読むといった特殊な手法であることも関係していて、もう少し労力をかけて調査をしていたとしたら、3ヶ月が10日くらいのものかもしれない。次世代デジタルライブラリーでは、内容によっては国立国会図書館デジタルコレクションで10日かかってたことが、1日で終るといった感じである。すごい時代になったものだというのが素直な感想だ。

ただ得手不得手はあるかなといった印象がある。ある程度まで知識がある分野であれば、次世代デジタルライブラリーで検索するのが効率が良い。しかし明治時代の共同生活というジャンルについて新たに調べようとするのであれば、まずは共同生活を含むする単語の"生活"あるいは"生活法"を国立国会図書館デジタルコレクションで検索、関連しそうな書籍を10-100冊程度読み、そのジャンルでよく使われる単語を把握してから次世代デジタルライブラリーを活用するのが良いと思う。当たり前だが知らないことは検索できない。古い資料を10冊なり100冊なり読むのも昔は大変だったけど、デジタル化され物理的な制約が少なくなりそれほど難しくなくなってきている。

ちょっと恐いなと思うのが、例えば太平洋戦争は侵略戦争じゃなかったように見えるように、資料を並べたりもできそうな点だ。前提知識とかなくても頑張ったら、それらしいものが出来そうな雰囲気がある。私自身も自分の思い込みに沿った資料を無意識のうちに集めてしまうようなことも起きそうなので、かなり気をつけて使っている。

自分が書いている文章は別にして、基本的に我々はすでに誰かが読んだものを読んでいる。その誰かはこれまで人間だった。しかし国立国会図書館デジタルコレクション時代から感じていたことなのだが、今はあらかじめ機械が読んだものを人間が再読する時代になってきている。それをなぜ人間が再読するのかっていうと、今のところは読んでなにかを考えたり感じたりするからだと思う。ただし例えば明治三五年から四〇年までに書かれた小説の中から、面白い作品を機械に選択させることもできそうだとは考えている。物語の面白さにはだいたいパターンがあって、前半に出てきた人名が後半で出てきたら伏線を回収したスコアを加算だとか、この時代で改行をしっかりしているので考え方で書かれている作品として扱うだとか、100くらいの条件を加えたら、かなりの精度が出せると思う。コストだとかの問題で今のところ達成はできていないけど、人類の英知をそこに注ぎ込んだら1年足らずで実現可能だろう。

それなら人間がなぜ読むのかって話になってくるわけだが、私は面白いから読んでるんだけど、面白さを判断できるコードを書いて無限に面白さを高速で判断させ続けたら、世界に存在している面白さの総量が爆発的に上る。人間はそれを感じることはできないものの、面白さはあるわけだから面白いのであるといった判断も可能でよく分からない。こういう部分をどう解釈するのかっていうのも文系分野の難しくも面白いところなんだけど、今後もデジタル化された資料で遊び続ける予定なんでそのうちなんか思い付くのだろう。私がなにを考えるのかなんてことはどうでもいいことではあるけれど、デジタル化された資料を扱う文系の学問のあり方自体が変化してくるような可能性も感じている。