代謝経路を予測することについて１ - 見習いインフォマティシャンのノート裏

代謝産物は、代謝経路を経て合成されている。

しかし、既知の代謝産物よりも、既知の代謝経路の方が少ないのが実情である。

実際の数値については、データベースを紐解こう、具体的には2020年10月時点でのKEGG情報を参照すると。

反応数（R-）：11,270種

化合物数（C-）：18,596種

このことからわかるのは、代謝経路というものをきちんと人類は解析できていないのではないか、ということである。とはいえ、膨大な数になっているので人類の手作業では到底、相手にできない。そこで、Informaticianの仕事が重要となってくると考えられる。

実際には、どのようなアプローチで代謝経路を予測するのか、について改めて調べてみたい。

代謝経路の予測においては、大きく２つのアプローチがある。

１）知識ベースを利用する方法

２）化学構造に着目した方法

１）知識ベースを利用する方法

From Metabolite to Metabolite：

KEGG登録情報をベースにして構築された技術。

KEGG pathwayとligandデータベースから行列を作出して、探索を行う技術である。

DESHARKEY：

宿主生物の代謝物と、目的とする化合物を結びつける可能性のある経路を、モンテカルロ法で探索する技術。

２）化学構造に着目した方法

BNICE：

Enzyme commission分類を利用して、反応ルールを抽出してくる技術。

知識ベースだと未知経路を含めた予測が苦手であることから、化学構造を行列で表現して、行列の加減によって反応を表現する。そして、結合の切断を負数、結合の形成を正数となる。

さらに、反応ギブス自由エネルギーを利用して、本来の反応と予測された反応の比較を行い、エネルギー的に有利な反応の提案ができることを示している。

優先順位付けを用いた逆合成解析システム：

メインとなる基質・生成物の構造変化に着目して、そこから反応ルールと抽出して、データベースを構築する。データ量を減らすことで、計算速度を上げることが狙いである。次に、側鎖を増やす反応か、環を形成する反応か、に着目して、結合ルールというものを抽出する。それらのルールに則り、分類を行うことができる。

そして、次に優先順位付けが必要となる。そこでは、結合部位の共分散、化学的類似性、熱化学的な有利度合い、経路距離、生物特異性の観点で行う。

RetroPath:

原子シグネチャーというものを定義する。ある原子に対して、その両隣にある原子を（　）に入れて後続して表記する。同じものに関しては、係数を付与して表記する。そうすることで、主鎖のすべての原子に対してまとめたものをシグネチャーとする。

次に、化学反応をそのシグネチャーの変化量で表現する。そして、同じシグネチャーの変化になるものをまずは探索する。そして、ギブス自由エネルギーを算出することで、反応実現可能性を評価する。その上で、細胞毒性や、宿主で反応実現できるかなどを考慮して、代謝経路の予測を行う技術である。