[本文]
-
- 国・地域名:
- ドイツ
- 元記事の言語:
- ドイツ語
- 公開機関:
- ライプニッツ協会技術・自然科学情報センター(TIB)
- 元記事公開日:
- 2025/05/09
- 抄訳記事公開日:
- 2025/06/06
-
AIに「読ませる」から、機械が「読める」科学へ
- 本文:
-
(2025年5月9日付、ライプニッツ協会技術・自然科学情報センター(TIB)の標記発表の概要は以下のとおり)
機械に人間の言語を教え込むかわりに、研究者たちは、研究成果そのものを機械が直接読み取れる形式で作成する、そのための革新的なオープンソース・アプローチを開発している。TIBの研究チームは、これをScientific Data誌上でReborn Articlesと題して発表した。この手法により、研究者は研究成果を人間にも機械にも読み取れるかたちで表現し、容易に再現・再利用することが可能となる。
デジタル技術が飛躍的に進歩する一方、科学研究成果の伝達手段は依然として時代遅れの枠組みにとどまっている。この400年で科学論文は紙からPDFへと形式を変えたが、機械には解釈不能なままである。従って、コンピューターがそれらの内容を理解するには、人間の介在が不可欠である。
現在、世界中で年間数百万本にのぼる論文が発表される中、情報の自動検索と処理へのニーズは急速に高まっている。これまでの多くの試みは、人工知能(AI)を用いて機械にテキストを解釈させる訓練に注力してきたが、その成果は限定的である。
こうした状況を受けて、TIBの研究者たちは、問題を根本から捉え直す視点を提案した。すなわち、「なぜ機械に人間の言語を学ばせるのか?それよりも初めから機械が理解できる言語で研究成果を記述すべきではないか」という発想である。そして彼らは科学誌上で、Reborn articlesと題するオープンソース・アプローチを発表した。これは、研究者が研究成果を機械可読な形式で作成できるようにするものである。
このアプローチでは、RやPythonといった一般的なデータ分析ツールを活用することで、研究成果を人間にも機械にも読み取り可能な形式で構造化することができる。これにより他の研究者も、ExcelやCSV形式といった機械可読可能なファイルとして成果データをダウンロードし、分析を再現・検証することが容易となる。
一見すると些末に思われるが、実際には公開データを再利用する際、現在はPDF論文から数値を一つずつ手作業でコピー&ペーストするか、誤認識のリスクを伴うAIツールに依存せざるを得ないのが現状である。
AIベースの情報抽出に対する現在の固定観念を打破することは容易ではなかった。論文の共著者であり、TIBのポスドクのローレン・スナイダー博士は次のように指摘する。
「現在、科学界全体が大規模言語モデルなどを用いた知識抽出アプローチに過度に期待を寄せている印象がある。私はむしろ、こうした偏った注目が、課題に応じたもっと効率的な手法を見出す妨げになっているのではないかと思っている。私たちの研究が、現在の枠組みを超えた発想を刺激する契機となることを願っている。」
[DW編集局]