Kenneth D. Aiello, Michael Simeone “ Triangulation of History Using Textual Data” ISIS, volume 110,No3 (2019) ,pp522-537.

　アメリカ科学史学会が発行しているジャーナルIsisの特集である”Focus”に掲載された論文。2019年第3号では、” Computational History and Philosophy of Science”と題された特集号が組まれた。本稿では、ビッグデータへの関心の高まりを背景にしつつ、近年利用可能になった大規模なアーカイブにおける資料をテクスト分析する手法と、その実践例が示される。ここでの焦点は、コンピュータによる分析に全面的に依存するのではなく、歴史家も加わった複数の定量的・定性的アプローチを組み合わせることで、対象を多角的に分析する手法(Triangulation)である。

↓

https://www.journals.uchicago.edu/toc/isis/2019/110/3

からダウンロード可

1 テクスト分析

コンピュータによるテクスト分析は、過去の出来事の社会的、言語的、歴史的文脈に洞察を与える。
テクスト分析は歴史研究において特に重要である。

∵言語や語彙の使われ方は、過去のある時期の間の社会的な状況や、集団のやりとりの仕方、さらには言語と文化の間の相互作用に対し洞察を与える。

Ex ・異なった集団間における言葉の使用を観察することで、社会的変化がどのような言語的帰結をもたらしたのかということを示す研究

・どのような集団が作られ、社会的カテゴリーを強化したかを示すことで、時間と共に集団のダイナミックな変化に証拠を提示する研究

「ビッグデータ(=データ分析、機械学習、大規模なデータベース)」は、新しいデータや資源を過剰に生み出し、歴史家や科学者の研究に挑戦や新しい手段をもたらしている。

大規模な文書アーカイブの調査になると、歴史家が本質的な役割を果たす。

∵言葉の文脈や意味、文書のより大局的なパターンの重要性は、コンピュータによって解決できない。

オープンアクセスの多くのコレクション

→今までにない深さと広さで、過去を分析し記録する機会を歴史家に与えている。

テクスト分析のもっともやりがいのある部分=トライアンギュレーション

:データ分析の結果(定量的)と歴史記述の方法から得た解釈と専門分野の知識(定性的)とを統合する。

本稿では、データを用いた分析、テクスト分析、その結果の解釈に関するいくつかのアプローチを概観したのち、人間のmicrobiomeに関する近年の科学の出現を扱う代表的な研究例を述べる。

2 データの収集とデータクリーニング

テクスト分析では、使いやすい状態にし(クリーニング)、整理する(キュレーション)方法がとても重要。

：データをあるソースから別のソースへと移行させる場合(例えばwindows OSからMac OSへ移行するといったように)、空欄の削除、画像や英語でない言語などのせいによる言葉の不適切な結びつき、イタリック体、スペースのある言葉などにより、テクストデータにエラーが生じることがある。

→これらは、テクストサンプルを読むことや、体系的にデータを収集することなどによって防止することができるが、本稿では詳細には踏み込まない。

3 テクスト分析の応用

テクスト分析は、言葉、(二語や三語といった)言葉のつながり、フレーズ、言説、意味や意味論や意図に直接関係した文書の全体の傾向を見ることができる。

→意味内容の変化を特し分析することで、歴史家は言葉、概念、言語、知識に関連した問いを立てることができる。

テクスト分析を実行できるからといって、必ずしもそれをすべきだというわけではない。

→単一の資料に依拠しており、言語の使用に関心がなく、一次データ(文書資料そのもの)を分析単位としている場合、テクスト分析の手法は適さない。

⇄まとまったテクストデータを持っており、各々の資料を読むことなくある洞察を得たいという場合には、テクスト分析は意味を持つ。

4 ケーススタディ：microbiome の文書集積

コンピュータによるテクスト分析の力を示すべく、以下の節では、microbiomeに関する科学論文の分析の方法と結果に焦点を当てる。
microbiomeという言葉を掲載した論文をPDFとして以下のサイトからダウンロードする。
重複を取り除き、クリーニングをし、手作業でキュレーションを施したのち

→27977のテクストファイルを得る。(2001-2010)＝MB corpusとする。

5 言語における意味の変化

以下では、microbiomeの研究の言説の中での概念的な変化の推測をおこなうため、(1) 頻度分析、(2) 用語索引、(3) キーワード(分析)という、三つのコンピュータを活用したテクスト分析の手法を披露する。≠機械学習

※機械学習(教師なし学習)：あらかじめ定義されたカテゴリーがない事物の集合をまとめるといった、変数間や対象間における未知なる関係を理解しようとする場合には部分的には有効。(ex 未知の言葉の集団を発見したり、基本的な統計分析を通じては見えないテクストの特性を発見するためには有益)

⇄ここでの関心＝テクストの特徴を理解するために、定性的なものと定量的なものと人間の洞察とを組み合わせること。

歴史家＝専門知や知識、言語仕様の歴史的な文脈についての気づきを与える存在意義をもつ。(定性的)

microbiomeの概念に関連した知識を調べる。

∵Microbiomeの意味の歴史的発展について不明な点が存在する。

：microbiomeという概念が複数のmicrobiomeの概念(コアなmicrobiome、人間のmicrobiome、生態的microbiomeなど)を包含するものであるという可能性を含んでいる。

→microbiomeの解釈やmicrobiomeとともに用いられる核となる他の概念についての合意やコンセンサスはまだない。

6 Microbiomeの文書のテクスト分析

テクスト内の言葉や複数の言葉のつながりの頻度の分析＝基礎的な手法

：文書集積内で用いられている言語に情報を提供し、個人や社会集団、制度や言説などを比較するための基礎となる。

＝どんな特定の言葉が、いつ、どのくらいの頻度で用いされているかを理解することは、社会や時間的な次元をまたぐ言語や知識の変化に洞察を与える。

社会的な特徴や時間分割といったすでに定義された興味関心のカテゴリーに従って、文書集積を分類することが便利。

→今回は時間によって分割し、頻度分析を行う。

→2001年から2010年までのMB文書集積の言葉のトップ10は、もっとも頻度の高い用語は、「機能語」(助詞、前置詞、助動詞など)であった。

これらの言葉は、調査に洞察を与え難いという意味で、内容語に比べて重要度が低い。

→「ストップリスト」＝重要ではないとされる言葉のリストを使う。

7 ストップワードを取り除いた後での言語頻度分析

ストップワードを取り除いた後で、文書集積における2001年から2010年までの各年の言語頻度のトップ10を比較は、時間に沿ってトップ10で使用頻度の高い言葉がどのように変遷したかを示し、研究者集団でのmicrobiomeの言説の移り変わりを示唆する。
bacteria、microbes、microbiotaのような言葉は、時間の流れの中でも高い頻度で使用され続けている。

→microbiomeは生物学や微生物学の影響を受けた概念である。

文書集積の初期の段階では、昆虫やネズミといった異なった動物の範囲で高い頻度を示し、その後、人間とともに使われるようにシフトしてきたということを示している。

→microbiome は生態学的概念なのか、人間に特有の概念なのか？という問いに示唆を与える。

Cell やcellsといった言葉が2010年のトップ10に入っており、かつ他の年ではこれらの言葉はトップテン入りしていない。

→2010年が分岐点

geneという言葉が2006年と2007年に最も多く使用されており、それ以前にはほとんど現れていない。

←これらの結果は、分析単位、分析射程、研究者集団の研究の焦点に帰属させられる。

→microbiomeという言葉のありうる解釈の幅、それに関連した重要な概念の変動をほのめかしている。

8 「人間」の用語索引

MB文書集積において最も頻繁に使用された概念の一つをより深く理解するために、我々は「人間」という言葉がどのように利用されていたのかを調査する。

→用語索引分析は、テクスト内での「人間」という言葉の全ての出現とともに、その言葉が埋め込まれている文についての表を生み出す。

→人間に関連した物事を記述するために形容詞として最も多く利用されているということがわかる。

特に、「人間」と人体の胃腸のシステムの部分との関係を強調しているということもわかった。

⇄ある種の言葉の不規則な揺らぎなのか、それとも、概念の全体の変化の一部なのか？

9 キーワード分析：語彙の重要性

キーワード分析：異なった文書集積間での相対的な言葉の使用頻度を比較することによって、言葉がどちらの方でしばしば用いられているかを明らかにする。

キーワード＝2つの文書集積を比較したことによって見出された言葉の統計的な重要性のことである。

＝、ある一つの集積における言葉の発生の回数や頻度は、その同じ語が別の集積で発生する頻度と比較される。

準拠集団と興味関心の集積(?) corpus of interest

→他の集合に比べてその集合でより頻繁に用いられる言葉(ポジティブワード)と、他の集合に比べてその集合であまり用いられない言葉(ネガティブワード)を明らかにする。

≒A 準拠集団(reference corpus)＝統制群であり、B 比較集団(corpus of interest)＝実験群

統制群＝独立変数の操作を受けない集団

実験群＝〃　　　　　　　受ける集団

A＝統制群として、geneという言葉がもっとも頻繁に使用されていた2006-2007年のテクスト集合とする。

B=実験群として、humanという言葉がもっとも頻繁に使用された2008-2020年のテクスト集合とする。

　　　　(Aを基準として、Bにおける使用頻度の高いと統計的に判断された言葉を表す？？)

　　　　→「女性」という言葉は、2006-2007年と比較した時、2008-2010年の集積においては患者/集団のキーワードとしてカテゴリー化されているということがわかった。

　　　　→「女性」という言葉は、2008-2010年の集合では1441回登場するのに対し、2006-2007年の集合では、13回しか登場しない。そして、女性という言葉は2008-2010年間の文書全体の18%に相当する138のテクストの中で見出された。(頻度分析?)

→女性という言葉は異なったテクストで複数回用いられており、ランダムなパターンでもなく、単発的な例でもない。

索引分析の結果は、さらに、女性という言葉の実際の使用は、患者/集合の結論を支持するということを確かなものにした。(患者を指し示す文脈で使用されている。)
頻度分析リストの結果から得られるキーワードの結果と索引分析とを組み合わせることで、microbiomeの言説の核心点における重要な差異を際立たせるような言葉の使用の変化を示すのである。
キーワード分析に対する批判
標準化された分岐点などは存在しないということ
一般的に比較的規模の大きい文書集積は、小さいそれに比べてより多くのキーワードを生み出すということ
キーワード分析の結果は、統計分析、集積の規模、参照集積によって異なる。
キーワードは相互に排他的ではなく、ある一つの集合におけるキーワードは、比較対象としての集合の中におけるキーワードであることを発見することもある。

⇄妥当性と解釈と結果を手助けする証拠を与えるために、多くの研究はキーワード分析と詳細な読解と索引とを組み合わせているわけである。

10 結論