原子位置の二乗平均平方根偏差(げんしいちのにじょうへいきんへいほんこんへんさ、英語: root-mean-square deviation of atomic positions)とは、タンパク質あるいはその他の分子の構造同士の距離の二乗平均平方根であり、バイオインフォマティクスにおいてこれらの類似性を示す指標である。単に二乗平均平方根偏差 、英語の略記でRMSDとも。

概要

タンパク質・その他分子における原子位置の二乗平均平方根偏差 (RMSD) は、重ね合わされたタンパク質の対応する二原子間の距離を二乗し、その相加平均の平方根をとった値である。このとき、主に計算に使用される原子はタンパク質主鎖の原子である。球状タンパク質の構造の研究では、通常、タンパク質同士で後述する最も適した重ね合わせを行い、アミノ酸の中心炭素原子に対して原子座標のRMSDをとることにより、三次元構造の類似性を比較する。

これらの比較には、並進や回転によってRMSDを最小化するように構造を移動させる方法が広く用いられている。Coutsiasらは、四元数を用いて二組のベクトル間でRMSDを最小化する剛体変換を行う簡単な方法を導出し、これらの方法がKabschアルゴリズムと等価であることを証明した。また、Kabschアルゴリズムで得られる解は、HurleyとCattellによって導入された、任意の次元の行列に対する特異値分解を用いた最小二乗法の解の一例となっている(プロクラステス解析)。さらに、最適な回転を計算するための四元数の解がPetitjeanによって論文に掲載され、この解と任意の次元での最適な等長写像の計算が無限集合と連続の場合へと拡張された。

また、力学系が明確に定義された平均位置を中心にゆらぎを起こす場合、平均位置を基準としたずれをRMSF (root-mean-square fluctuation) という。

方程式

R M S D = 1 N i = 1 N δ i 2 {\displaystyle \mathrm {RMSD} ={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}\delta _{i}^{2}}}}

ただし、δi は座標変換された i 番目の原子と参照構造で対応する原子との距離である。これは、たびたび炭素・酸素・窒素といったタンパク質主鎖での相対的に重い原子で計算され、Cα(アミノ酸中心炭素原子)のみで計算されることもある。

タンパク質が並進・回転移動を経てRMSDを最小化する最も適した重ね合わせが得られると、この最小値が値として用いられる。 n {\displaystyle n} 個の二組のベクトル v {\displaystyle \mathbf {v} } w {\displaystyle \mathbf {w} } が与えられると、RMSDは以下のようにも表される。

R M S D ( v , w ) = 1 n i = 1 n v i w i 2 = 1 n i = 1 n ( ( v i x w i x ) 2 ( v i y w i y ) 2 ( v i z w i z ) 2 ) {\displaystyle {\begin{aligned}\mathrm {RMSD} (\mathbf {v} ,\mathbf {w} )&={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}\|v_{i}-w_{i}\|^{2}}}\\&={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}((v_{ix}-w_{ix})^{2} (v_{iy}-w_{iy})^{2} (v_{iz}-w_{iz})^{2}}})\end{aligned}}}

RMSDは長さの単位で表され、最も多く用いられている単位はオングストローム (Å) である。

応用

代表的なRMSDの用途は、複数のタンパク質構造の定量的な評価である。タンパク質構造予測精密評価は、提出された構造と既知の構造との類似度を評価する指標の一つとしてRMSDを用いている。このとき、RMSDの値が小さいほど、提出された構造は目的の構造に近く、より良いものとなる。

また、タンパク質フォールディングをコンピュータによってシミュレーションする研究では(分子動力学法)、タンパク質がどの程度折り畳まれた状態かを定量化するための反応座標としてRMSDが使用されることがある。

さらに、タンパク質などの高分子にリガンドとして結合する有機小分子に対するRMSDの研究も、ドッキングという点から一般的である。ただし、リガンドの場合はタンパク質とは異なり、ふつうRMSDの計算前には構造の重ね合わせは行われない。

RMSDは、タンパク質進化における類似性やシーケンスアラインメントの性質を定量化するために提案されている指標の一つである 。

関連項目

  • 二乗平均平方根
  • 平均二乗ゆらぎ
  • 四元数 - RMSDの最適化に使用された。
  • カブシュアルゴリズム - RMSD最小化のアルゴリズム。
  • グローバル距離テスト - 三次構造が異なるタンパク質の構造比較の尺度。

脚注

注釈

出典

外部リンク


【数学Ⅰ】 二乗の平方根 問題をやってみる YouTube

【Excel】エクセルでRMS(二乗平均平方根)を計算する方法【根二乗平均】|おでかけラボ

05【機械設計】公差の二乗和平方根をエクセルで計算してみた【基礎知識】 好きな事で生きていく

ヘリウム原子のエネルギー準位と固有関数の空間分布(直交系展開によるエネルギー固有状態の計算結果)

水素原子のエネルギー準位とリュードベリ定数を導出しよう 生命系のための理工学基礎