スタッフのチカラ

デジタル化や修理のための状態調査 — 400点サンプル抽出法

2015年03月16日木部徹

400点のサンプルで充分

資料所蔵機関がかけられる資源(ヒト、カネ、モノ)には限りがある。資料保存に振り分けられる資源も、他の分野同様に適切に配分され、無駄がないように使われなければならない。

雑誌のような逐次刊行物を合冊製本する際にも、すべての雑誌が対象になるわけではない。利用頻度が高いものは優先されるだろうし、利用頻度が低いものは対象にはならず、すでに内外でデジタル化されている雑誌ならば、冊子のまま紐でくるんでバラバラにならないように保管しておくだけかもしれない。

このように「簡単」な選別基準で対象物を抽出でき、製本等にかかる費用を予算とし計上できる場合もあるが、特定の図書資料群(コレクション)や特定の文書(アーカイブズ)資料群の全体のどのぐらいの数がどの程度の物理的・化学的な傷みを生じているか、例えば傷みがひどくデジタル化による代替が必要なものはどのぐらいあるか、保存容器への収納資料の数は、修理対象資料の数は—等々を事前に調査すためには、調査法に統計学的な信頼性がなければ全体像がつかみにくい。また、デジタル化等の保存のための計画立案は当然予算の裏付けが必要だが、前提として事前調査による全体像の把握が必須となる。

以下では Carl Drott の良く知られた論文をもとに、事前調査に使うランダムサンプリング法を紹介する。統計学的な手法を使った調査法に関する文献はたくさんあるが、Drott の論文は表題通り、図書館で使うことに的を絞ったもので評価が高く、海外では広く用いられている。英国の National Preservation Office は、この方法で、図書、文書はもちろん、博物館などモノ資料にまで調査できるとし、2000年から開始した国内の図書館・アーカイブ・博物館・美術館を網羅する資料保存アセスメント(PAS)では400点調査を推奨している。また、後述のように国内での事例もある。

この手法のポイントは、抽出を適切に行えば、全体数がどれほど多くとも、実際のサンプル数を400足らず(正確には 384 だが、切りのよいところで400にする)にできることだ。この数からのデータを全体に敷衍したとき、統計学的には95±5 % の高い確率で当てはめられることになる。

 

サンプル数 確率 % 誤差 ± %
38,416 95 0.5
9,604 95 1
2,401 95 2
1,067 95 3
384 95 5
196 95 7
96 95 10

 

Drott, C. M. Random Sampling: a Tool for Library Research, College & Research Libraries, March 1969, 119-125.

 なお、Drott はその後のコンピュータとソフトウェア(表計算ソフト)の目覚ましい浸透を踏まえた抽出法を自らのHPで公開している。

 

 

400点サンプル抽出法の統計学的根拠

400点サンプル系統抽出法は以下のような統計学上の計算式に基づく。

 

 

これをExcel などの計算表ソフト上で書くと以下の表のようになる。

 

 

 

表の抽出サンプル数のセル(B5)には、上記の式 =調査対象蔵書の総点数(母集団)/((誤差の最大値/信頼度係数)^2*((調査対象蔵書の総点数-1)/(母比率*(1-母比率)))+1) があらかじめ入っている。下表のセル構成ならば

=B1/((B3/B4)^2*((B1-1)/(B2*(1-B2)))+1)

という式になる。Excel上で下表の通りのセル構成で作成し、母比率のセル(B2)には50%、誤差の最大値のセル(B3)には5%、信頼度係数のセル(B4)には1.96、そして抽出サンプル数のセル(B5)には上記の式を入れてみていただきたい。 表の「調査対象蔵書の総点数」のセルに数値を入れてみる。総点数が20万5千点ならば、205000 である。

 

 

すると「抽出サンプル数」のセルが、383.44 になる。総数からこの数(切り上げて384)だけ抽出して調査すれば、信頼度が95%、誤差が±5%で全体に敷衍できる統計になる。実際にはこの数よりも多く、切りのよい400点を選べば良い。後々の分析の際にも都合が良く、統計的にも問題ない。もし抽出数が400に満たなくとも、表の数値以上ならば問題ない。400を超えても、もちろん問題ない。 実際のExcelでのシートを以下に掲載した。ちなみに母集団数を50000とすると抽出サンプル数は382、10000とすると370、5000とすると357というようにサンプル数は減少してゆく。それでも400点抽出しても良いし、例えば5000ならば360をサンプル数にしても良い。

 

Excelシート

 

いくつかの用語を解説する。

蔵書の総点数(母集団)とは文字通り、状態調査の対象になる資料の全点数のこと。分っているならば一桁まで正確に入れても良いが、普通は下3桁ぐらいは丸めて構わない。一桁まで入れてみても、後々の分析の際の比率の小数点以下の処置が面倒くさくなるだけである。試みに、総点数のセルに200000といれても、205000といれても、245671といれても、抽出サンプル数は少し変わるだけで、大勢に影響はないことがわかるだろう。

母集団全部を対象にした悉皆調査を行った場合でも、誤りは発生する。ましてサンプルを抽出しての調査ならば、その分析結果を全体に反映させたときに、実態とは開き(誤差)が出てくるのは理解できるだろう。もちろん、その誤差はなるべく小さい方が良い。上記の表では5%にしている。これが誤差の最大値である。95%の確立で当たっている(信頼度)が、±5%の幅で間違っている(誤差)可能性があるという意味である。最大値を1%にしてもかまわないが、サンプル数が膨らむし、蔵書のサンプル調査ではほとんど意味が無い。95%±5%で充分である。

次に、母比率というのは、ある調査項目に該当するものが母集団に占める比率の予測である。それを知りたいがためのサンプル調査であり悉皆調査なのに、なぜ調査前に予測して入れておかなければならないのか、戸惑うのは当然である。しかし統計的にはこれは必須項目になる。煩瑣になるので詳しい説明は省略するが、普通は一項目だけの調査はありえず、複数の項目が設定される。複数の項目にまたがる母比率を予想して入れなければならないときには、それぞれの項目では比率に凸凹があったとしても、均して全体としてならば半分ぐらいを占めるであろうとして、50%に設定するのが定石になっている。

 

 

信頼度係数とは特定の信頼度に対して決まっている以下のような定数である(正確には特定の信頼度に対応する標準正規分布の%点という)。

信頼度90%?係数は1.95
信頼度95%?係数は1.96
信頼度99%?係数は2.58

状態調査では信頼度95%で充分なので、係数は1.96になる。

 

抽出の方法

総数が15万点の中から400点のサンプルを万遍なく抽出するとする。そのためには、まったく無作為に抽出するのがベストである。具体的には、例えば15万枚のクジをつくって混ぜ合わせ、ここからランダムに400枚を引く。これが単純無作為抽出(文字通りのランダム・サンプリング)と呼ばれる方法である。あるいはサイコロを振って選んだり、パソコンで擬似乱数表を作り選んでゆく方法もある。しかしクジやサイコロでは手間がかかりすぎて現実的ではない。状態調査の場合には完全な無作為ではなく、系統抽出(等間隔抽出)という方法を採用する。

サンプル数が400で、調査対象の蔵書が収められている棚数がそれを上回る場合には、棚に連番で番号を振ってゆく。この棚数を400で割り、出てきた棚数(仮に35とする)、35番目の棚から一冊抜き出し、次の70番目の棚から二冊目、次の105番目から三冊目・・・・・というように順に選び出していって400のサンプルを得る。該当する棚に本が無い場合には、次の棚から抽出して良い(誤差のうちに入ってしまう)。

さまざまな場所に分散して保管されていたり、大規模な蔵書が対象になるといった場合には、目録に連番を振って、総数(母数)を400で割り、割った数に該当する番号の資料を等間隔で順番に抽出してゆく。

 

*厳密な系統抽出法においては、最初のサンプルは乱数表からランダムに選ぶことになっている。Drottにおいてももちろん同様である。これを最初のサンプルとして、それ以降のサンプルを等間隔に抽出してゆく。ただ、蔵書のサンプル調査は乱数表を用いるまでないと思う。なぜかというと、サンプル調査で判るのはあくまでも蔵書全体としての状態の大まかな傾向だけである。例えば、「傷みが激しくそのままでは利用に支障がある資料は35%」とサンプルによる調査結果がでて、それを全体に敷衍して7,000点在ると判ったとしても、そもそもの誤差が±5%あり、なによりも実際に対策を採るとなったならば、「酸性紙であるが紙力は残っている」、「過去の利用により傷みがひどい」などの調査項目に即して、あらためてチェックしていくしかないからである(悉皆調査)。ただ、そこで選び出された「傷みが激しくそのままでは利用に支障がある資料 」の数は、7,000点±5%の中に納まる。

 

内外での事例

蔵書の健康診断である状態調査は元々が海外、特にアメリカの研究図書館が1980年代から始めたもので、イエール、スタンフォード等の大学図書館、アメリカ議会図書館、ニューヨーク公共図書館などの事例があり、Drottのサンプル抽出法を元にした状態調査(劣化調査)が行われている(下表参照)。

調査年 機関 サンプル数 結果
1979 Stanford Univ. Library 500 27% が brittle
1982 Yale Univ. Library 36,500 37.1% が brittle
1984 Library of Congress 1,200 90% が酸性紙含む
1985 Syracuse Univ. Library 2,548 12% が brittle、86%が酸性
1985 National Library of Medicine 384 8.8% が brittle
1986 Northwestern Univ. Library 664 30% が brittle
1987 Univ. of Illinois 384 37% が brittle
1990 Brigham Youg Univ. Library 384 75.5% が酸性紙、3.8% が brittle

Jutta Reed-Scott. “Planning for Preservation in Libraries.” in Preservation; Issues and PLanning, American Library Association, 2000, .91-92

 

国内での図書館やアーカイブズの蔵書の状態調査については、小島浩之・矢野正隆「日本の図書館等における蔵書の状態調査—その歴史と方法論」(現代の図書館、Vol.46, No.2, 2008, p.79-89)が、先行事例の問題点も含めて、綿密かつ周到に調査したように、1983年の国立国会図書館による蔵書の酸性劣化調査を嚆矢として、同書の執筆時点の2008年まで28件の「事例」発表がある。しかし、対象資料の悉皆(全点)調査は別にして、サンプル抽出による調査となっていても「母集団の総数の明示がなかったり、有意抽出のため母集団に敷衍できない」(小島ほか、p.85)ものが大半である。その結果を母集団に敷衍できるサンプル抽出法により調査した事例は、東京大学経済学部資料室の蔵書劣化調査(調査は2005年)、国立国会図書館の戦後に出版された和図書の劣化調査(調査は2006~2007年)がある。この国会図書館での調査結果報告書とはべつに、Excel ファイルによる素データも公開されている。さらにサンプル抽出法によるマイクロフィルム調査の事例と方法のより丁寧な解説として矢野正隆「標本調査法 : 統計的信頼性について」(『マイクロフィルム状態調査報告書』東京大学経済学部図書館, p.63-69. 2009.3)がある。

 

 

※ Excelで無作為抽出対象サンプル一覧を作る

表計算ソフトのExcel を使って疑似乱数表を作り400点を無作為抽出する方法は以下の通り。目録等で資料に連番が振ってあることが条件になる。

 

シート全体を指定して「セルの書式設定」で「数値」を選び、「小数点以下」を「0」にしておく。

A1 のセルに乱数を発生させる式を入れる。 =RAND()*(a-b)+b という式になる。a は母集団の数だが、b は母集団の最初の数なので1になる。仮に母集団が183,431点だとすると、=RAND()*(183431-1)+1を入れる。1~183431の間で乱数を発生させなさいという式である。

 

 

すると A1のセルが次のようになる。この時の数値は全く勝手に計算された、いわゆる乱数であり、36448がいつも発生するのではなく、その都度変わる。

 

 

A1 のセルを、A列の400までコピーする。400は抽出するサンプル数。1~183431の間で400個の乱数を発生させるという意味である。この時、A1のセルは再計算されて数値が変わるが気にせずに次に進む。

 

 

A1~A400までを範囲指定し、コピーして、これを C の列に貼り付けるのだが、この時に「形式を選択して貼り付け」を選び、「値(V)」で貼り付ける。そしてC1~C400までを昇順に並び替える。この時もA列の数値が変わるが気にせずとも良い。

 

 

C列に昇順に並び替えた乱数の一覧ができる。数値は重複せず、隣り合った数値の間隔もバラバラである。数値に合う該当資料(事前に連番が振ってある)を順に、400点抽出してゆく(A列はもはや関係ないので無視)。

Excelシート (母集団:183431、標本数:400の場合)

なお、以上は目録から抽出するための乱数表だが、棚に連番を振れば、棚の乱数表ができる。

このように乱数表の作成自体は難しくはないのだが、母集団の数が大きかったり、広い書庫のあちこちに配架されていると、表を元にして目録と照合し、棚から選び出してゆくのがとても手間がかかる。

 

【文責:木部徹】

ページの上部へ戻る