著者：副業の宮殿｜製造業に携わる現役エンジニア。技術士試験対策書籍をKindleで複数出版。技術ブログ「副業の宮殿」にて製造業DX・AI活用の情報を発信中。

https://www.theinformation.com/articles/ex-anthropic-researchers-talks-raise-capital-new-startup-1-billion-valuation?utm_source=ti_app&rc=01qtpq 元Anthropic研究者が新AI企業を設立 Anthropic（Claudeを作っているAI企業）の元研究者たちが新しいAIスタートアップを立ち上げた。この会社は **AIを使った科学研究（バイオ・材料科学など）**を行うことを目的としている。

科学研究AIはどのような手法でつくるのですか？

科学研究AIは、普通のチャットAIとは少し違い、「論文を読む → 仮説を立てる → シミュレーション → 実験設計」までを支援する形で作られます。現在の主流は複数のAI技術を組み合わせたシステムです。分野別に整理すると次のようになります。

1. 論文理解AI（Scientific LLM）

まずは研究知識を理解するAIです。

手法

大規模言語モデル（LLM）
論文データセット学習
RAG（論文検索）

学習データ

arXiv
PubMed
特許
技術レポート

できること

論文要約
研究トレンド分析
仮説提案

例「この材料系で導電率を上げる方法は？」

2. 科学シミュレーションAI

これは物理・化学モデルとAIを組み合わせる方法です。

手法

Physics-informed neural networks（PINN）
Graph Neural Network
surrogate model

使われる分野

材料科学
流体
量子化学
半導体

例 AIが

材料組成
↓
シミュレーション
↓
性能予測

を高速に行う。

3. 実験計画AI（Self-driving lab）

これはかなり重要な分野です。 AIが

仮説
↓
実験条件決定
↓
実験
↓
結果学習
↓
次の実験

を回します。

手法

Bayesian optimization
Active learning
reinforcement learning

この分野は

材料探索
触媒
新薬

で実用化が進んでいます。

4. 分子・材料生成AI

これは新しい材料を生成するAIです。

手法

Diffusion model
VAE
Transformer
Graph generative model

例 AIが

分子構造
↓
性能予測
↓
最適構造生成

を行います。 AlphaFoldもこの系統です。

5. ロボット実験AI

AIが実験ロボットを動かす方法です。構成

AI
↓
実験計画
↓
ロボット操作
↓
測定
↓
AI更新

これを self-driving laboratory と呼びます。

6. 最近の最先端構成（研究AIの典型構造）

最新の研究AIはだいたいこうなります。

LLM
↓
論文理解
↓
仮説生成
↓
シミュレーションAI
↓
実験計画AI
↓
ロボット実験
↓
結果学習

つまり AI研究者を作ろうとしている という流れです。

7. 材料研究だとこうなる

あなたがよく話しているテーマで例を出すと例えば イオン交換ガラス AIは

論文を読む
拡散モデルを構築
電場印加条件を探索
ナノ粒子析出条件を提案

ということができます。

8. 実は重要なのは「RAG + シミュレーション」

研究AIで一番現実的なのは

論文RAG
+
シミュレーション

です。つまり 研究知識 × 物理モデル

9. 実際にこの方向の企業

最近増えています。例

DeepMind（AlphaFold）
Insilico Medicine（AI創薬）
Orbital Materials
Citrine Informatics
Materials Project

今回の記事のスタートアップもこの系です。

重要な話

実はあなたが前に話していた

イオン拡散
ガラス
ナノ析出
FEM

この分野は AI研究とめちゃくちゃ相性が良いです。 理由

数式モデルがある
実験データが少ない
探索空間が広い

AIが一番役に立つ分野です。

もし興味あればですが、 **「研究AIの作り方（現実的な構成）」**を説明できます。実はあなたの研究テーマだと 個人でも作れるレベルの構成があります。 かなり面白いです。

論文をRAGにするのですか？

はい。 現在の科学研究AIの多くは「論文をRAGにする」方法を使っています。 ただし、普通のRAGよりも少し高度な構成になります。整理して説明します。

1 基本構造：論文RAG

一番基本は次の形です。

論文PDF
↓
テキスト抽出
↓
ベクトル化（embedding）
↓
ベクトルDB
↓
LLM

質問すると

質問
↓
関連論文検索
↓
論文内容をLLMに渡す
↓
回答生成

つまり 論文検索 + LLM です。

2 なぜRAGが必要か

LLMは

論文の細かい内容
最新研究

を覚えていません。そのため 論文を外部知識として検索して使う のがRAGです。

3 科学RAGは少し特殊

研究用途では次のような拡張をします。

① セクション分割

普通のRAG

段落

研究RAG

Abstract
Method
Result
Discussion
Equation

などで分割します。

② 図表の理解

論文では

グラフ
SEM画像
回路図
フローチャート

が重要なので

図
↓
Vision AI
↓
説明文生成
↓
RAG

に入れることがあります。

③ 数式理解

研究では数式が重要なので

LaTeX
↓
数式抽出
↓
数式embedding

を行うことがあります。

4 研究RAGの典型構成

論文PDF
↓
OCR
↓
構造解析
↓
chunk分割
↓
embedding
↓
vector DB
↓
LLM

よく使うツール

LangChain
LlamaIndex
Haystack
FAISS
Chroma

5 材料研究の場合

例えばあなたの研究テーマ

イオン交換ガラス
銀析出
混合アルカリ効果

の論文をRAG化すると AIは

論文検索
↓
拡散モデル比較
↓
電場条件比較
↓
最適条件提案

などができます。

6 研究AIではRAGだけでは不十分

7 重要：実は論文RAGは簡単

実装自体はそれほど難しくありません。最低構成

PDF
↓
embedding
↓
FAISS
↓
GPT

これだけでも動きます。

8 研究者が作るなら

本当に強い研究AIはこうします。

論文RAG
+
実験ノートRAG
+
研究室データRAG

つまり

論文
研究データ
研究メモ

全部検索できるAIです。

実はですが、あなたが前に言っていた 「図面添削AI」 と同じ構造です。

設計基準
+
図面

と

論文
+
研究

は AIの構造は同じです。

もし興味があればですが、研究AIで今一番面白いのは 「論文RAGの次の段階」 で、 AIが論文を読んで仮説を作る仕組みです。これはかなり面白いので説明できます。

チャット形式だとAIの活動時間が短いですが、長くするにはどうすればいいですか？

良い質問です。おっしゃる通り チャット型AIは基本的に「短時間の思考」しかできません。理由は 1回の推論（response）で処理が終わる仕組みだからです。研究AIや設計AIでは、これを解決するために **「長時間動くAI構造」**を作ります。結論から言うと主な方法は 4つあります。

1 エージェント化（AIをループで動かす）

一番よく使われる方法です。普通のチャット

質問
↓
AI回答
↓
終了

エージェント

目標
↓
AI思考
↓
ツール実行
↓
結果評価
↓
次の行動
↓
繰り返し

つまり AIにループを作る です。 Pythonの例

while True:
    plan = llm("次の行動を決める")
    result = tool(plan)
    memory.append(result)

代表ツール

LangChain Agent
AutoGPT
CrewAI
OpenAI Agents

2 外部メモリを持たせる

チャットAIは通常 短期記憶しかありません。 そのため

AI
↓
メモ保存
↓
次の思考で読み込み

を作ります。例

vector database
SQL
knowledge graph

つまり 長期記憶AI です。

3 タスク分解AI

大きな問題を 小タスクに分解して順番に実行します。例

研究テーマ
↓
論文検索
↓
要約
↓
仮説生成
↓
実験計画
↓
評価

これを task planner と呼びます。

4 AIをバックグラウンドで動かす

チャットAIは ユーザーが話したときだけ動く ですが研究AIは

cron
job queue
worker

で 24時間動くAI にします。例

夜中に論文検索
↓
朝にレポート生成

研究AIの実際の構造

多くの研究AIはこうなっています。

planner AI
↓
research AI
↓
tool execution
↓
memory update
↓
planner

つまり AIがAIを使う構造 です。

実際の例（科学研究AI）

目標
「銀析出ガラスの条件探索」

AI
↓
論文検索
↓
拡散モデル抽出
↓
シミュレーション
↓
条件探索
↓
結果評価
↓
次の条件探索

これを scientific agent と呼びます。

実は一番簡単な方法

意外ですが AIを長時間動かす最も簡単な方法は

ループ
+
RAG
+
ツール

です。これだけで 半日くらい動くAI が作れます。

かなり重要な話

あなたが前に話していた

図面添削AI
設計AI
研究AI

は実はすべて 同じ構造 です。

RAG
+
LLM
+
Agent loop

もし興味あればですが、実は 研究AIを作るなら今一番強い構造があります。これは最近のAI研究者が使っているもので 「Deep Research型AI」 という構造です。実は 個人でも作れるレベルなので、希望があれば 研究AIのリアルな構成図を説明します。

エージェントでも1回の推論時間は短いですか？外部記憶を全部参照する前に止まるとかはあり得ますか？

はい。結論から言うと ① エージェントでも1回の推論時間は基本的に短い ② 外部記憶を全部参照する前に止まることは普通にあり得ます です。理由を少し整理します。

1 エージェントでも「1回の推論」は短い

エージェントは長時間動いているように見えますが、実際は

LLM推論
↓
ツール実行
↓
LLM推論
↓
ツール実行

という 短い推論の繰り返しです。つまり

短い思考 × 何百回

で長時間動いているだけです。 1回の推論は普通

数秒
長くても数十秒

です。

2 なぜ1回の推論が短いのか

理由は主に3つあります。

(1) トークン制限

LLMは

入力トークン + 出力トークン

に制限があります。例えば

128k tokens
200k tokens

など。そのため 全部のデータを読むことはできません。

(2) 推論コスト

LLMは

O(n²)

に近い計算量なので入力が大きいほど

遅い
高価

になります。

(3) 推論時間制限

APIやシステム側で

タイムアウト
最大出力

が設定されていることが多いです。

3 外部記憶を全部参照する前に止まるか

これは よく起きます。 例えば

vector DB
↓
検索上位5件
↓
LLM

のように 一部しか読まない 仕組みです。

4 RAGは基本「全部読まない」

RAGは

質問
↓
embedding検索
↓
上位k件
↓
LLM

です。例えば

論文10000本
↓
検索結果5本

です。つまり ほとんどの知識は読まれていません。

5 研究AIで起こる問題

研究用途だと

論文を全部見ていない
重要論文を見逃す
局所最適になる

という問題があります。

6 これを解決する方法

研究AIでは次の方法を使います。

(1) iterative retrieval

繰り返し検索

検索
↓
回答
↓
追加検索

(2) hierarchical RAG

段階検索

分野検索
↓
論文検索
↓
段落検索

(3) long-context model

長文モデル例

Claude (200k)
Gemini (1M)
GPT long context

(4) map-reduce型

全部読む方法

論文1 → 要約
論文2 → 要約
論文3 → 要約
↓
統合

これは 研究AIではかなり使われます。

7 実は研究AIの一番大きな問題

実は一番大きい問題は 探索が途中で止まる ことです。例えば

論文検索
↓
5本読む
↓
答え出す

本当は

100本読むべき

かもしれません。

8 最近の解決方法（Deep Research）

重要な話

実は 「研究AIを作る難しさ」はここです。 問題は

AIの賢さ

ではなく

探索戦略

です。

もし興味あればですが、あなたが話している

論文RAG
図面添削AI
研究AI

は実はすべて共通していて、 **AIシステムの難しさの90％は「探索設計」**です。この分野には今 かなり面白いアルゴリズムがあります。（研究AIを作る人はほぼ必ずぶつかる部分です）

あわせて読みたい

投資を始めるなら

▶ 松井証券で口座開設する（手数料無料）

【管理人の独り言】

【管理人メルマガ】副業でも稼げるヒミツ

【管理人メルマガの宣伝 終わり】

科学研究AIはどのような手法でつくるのですか？

1. 論文理解AI（Scientific LLM）

手法

学習データ

できること

2. 科学シミュレーションAI

手法

使われる分野

3. 実験計画AI（Self-driving lab）

手法

4. 分子・材料生成AI

手法

5. ロボット実験AI

6. 最近の最先端構成（研究AIの典型構造）

7. 材料研究だとこうなる

8. 実は重要なのは「RAG + シミュレーション」

9. 実際にこの方向の企業

重要な話

論文をRAGにするのですか？

1 基本構造：論文RAG

2 なぜRAGが必要か

3 科学RAGは少し特殊

① セクション分割

② 図表の理解

③ 数式理解

4 研究RAGの典型構成

5 材料研究の場合

6 研究AIではRAGだけでは不十分

7 重要：実は論文RAGは簡単

8 研究者が作るなら

チャット形式だとAIの活動時間が短いですが、長くするにはどうすればいいですか？

1 エージェント化（AIをループで動かす）

2 外部メモリを持たせる

3 タスク分解AI

4 AIをバックグラウンドで動かす

研究AIの実際の構造

実際の例（科学研究AI）

実は一番簡単な方法

かなり重要な話

エージェントでも1回の推論時間は短いですか？外部記憶を全部参照する前に止まるとかはあり得ますか？

1 エージェントでも「1回の推論」は短い

2 なぜ1回の推論が短いのか

(1) トークン制限

(2) 推論コスト

(3) 推論時間制限

3 外部記憶を全部参照する前に止まるか

4 RAGは基本「全部読まない」

5 研究AIで起こる問題

6 これを解決する方法

(1) iterative retrieval

(2) hierarchical RAG

(3) long-context model

(4) map-reduce型

7 実は研究AIの一番大きな問題

8 最近の解決方法（Deep Research）

重要な話

あわせて読みたい

関連記事

コメントを残す コメントをキャンセル

【管理人メルマガの宣伝　終わり】

コメントを残すコメントをキャンセル