github:地址

Rdkit|化学指纹(fingerprint)

化学指纹(fingerprint)

RDKit中还有许多其他类型的分子指纹可供选择,以下是其中几个常见的分子指纹类型:

  • Morgan指纹(Circular fingerprints):基于分子的拓扑结构和半径参数生成的二进制指纹,可以用于描述分子的结构和相似性。
  • MACCS指纹(MACCS keys):基于分子的结构和功能团片段生成的二进制指纹,可以用于进行药物相似性和虚拟筛选。
  • AtomPair指纹(Atom pairs):基于分子中原子对之间的距离和化学性质生成的二进制指纹,可以用于描述分子的空间和化学特征。
  • TopologicalTorsion指纹(Topological torsions):基于分子中四元环的拓扑结构和旋转角度生成的二进制指纹,可以用于描述分子的立体化学和相互作用。

这些分子指纹可以使用RDKit中的不同函数来计算,具体取决于所需的指纹类型和参数

from rdkit import Chem
from rdkit.Chem import AllChem

RDKFingerprint

RDKFingerprint是RDKit中一种常用的分子指纹类型,可以用于进行药物相似性和虚拟筛选

# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles("CCO")
fp = Chem.RDKFingerprint(mol)
print(fp.ToBitString())

Morgan指纹

Morgan指纹是RDKit中一种常用的分子指纹类型,可以用于描述分子的结构和相似性。它基于分子的拓扑结构和半径参数生成,具有以下特点:

  • 生成的指纹是一个固定长度的二进制向量,每个位表示一个子结构的存在或缺失。
  • 指纹的长度和半径参数可以根据需要进行调整,以平衡指纹的信息量和计算效率。
  • 可以使用不同的哈希函数来生成指纹,以增加指纹的多样性和鲁棒性。
    rdkit.Chem.AllChem.GetMorganFingerprint 函数来计算分子的Morgan指纹:
# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles("CCO")

# 计算分子的Morgan指纹
fp = AllChem.GetMorganFingerprint(mol, 2)

# 输出结果
print('分子的Morgan指纹为:', fp)
# 将Morgan指纹转换为字符串形式
fp_str = fp.ToBinary()

# 输出结果
print('分子的Morgan指纹(字符串形式)为:', fp_str)
# Morgan指纹像原子对和拓扑扭转一样,默认情况系按使用计数,但有也可以将他们计算为位向量

fp = AllChem.GetMorganFingerprintAsBitVect(mol, 2, nBits=1024)
print(fp.ToBitString())
## 也可以将常量用于不变式,产生指纹分子比较拓扑
m1 = Chem.MolFromSmiles('Cc1ccccc1')
m2 = Chem.MolFromSmiles('Cc1ncncn1')
fp1 = AllChem.GetMorganFingerprint(m1, 2, invariants=[1]*m1.GetNumAtoms())
fp2 = AllChem.GetMorganFingerprint(m2, 2, invariants=[1]*m2.GetNumAtoms())
print(fp1 == fp2)  # True

提供的指纹信息存储在字典中

通过bitinfo参数获取Morgan指纹中特定位有贡献的原子信息。所提供的指纹信息存储在字典中。
每条信息是一个条目,键是位id,值是(原子索引,半径)元祖列表。

m = Chem.MolFromSmiles('c1cccnc1C')
info = {}
fp = AllChem.GetMorganFingerprint(m, 2, bitInfo=info)
# GetNonzeroElements()返回非零元素的字典
print(len(fp.GetNonzeroElements()))  # 16
print(info)

#16
#{98513984: ((1, 1), (2, 1)), 422715066: ((6, 1),), 951226070: ((0, 1),), 1100037548: ((4, 1),), 1207774339: ((2, 2),), 1235524787: ((0, 2),), 1751362425: ((4, 2),), 2041434490: ((4, 0),), 2246728737: ((6, 0),), 2614860224: ((3, 2),), 3217380708: ((5, 0),), 3218693969: ((0, 0), (1, 0), (2, 0), (3, 0)), 3776905034: ((3, 1),), 3999906991: ((1, 2),), 4036277955: ((5, 1),), 4048591891: ((5, 2),)}

由上述输出内容可知:
98513984位设置了两次:一次由原子1设置,一次由原子2设置,每个半径为1。
4048591891位被原子5设置一次,半径为2。

根据第4048591891位的信息,我们可以获取到原子5的2层电荷内的所有子原子

env = Chem.FindAtomEnvironmentOfRadiusN(m, 2, 5)
amap = {}
submol = Chem.PathToSubmol(m, env, atomMap=amap)
submol_num = submol.GetNumAtoms()
print('子原子数', submol_num)  # 子原子数 6
print(amap)  # {0: 0, 1: 1, 3: 2, 4: 3, 5: 4, 6: 5}

或者可以使用下面的方法(由其对于大量分子而言,速度更快)

atoms = set()
for bidx in env:
    atoms.add(m.GetBondWithIdx(bidx).GetBeginAtomIdx())
    atoms.add(m.GetBondWithIdx(bidx).GetEndAtomIdx())

smi = Chem.MolFragmentToSmiles(m, atomsToUse=list(
    atoms), bondsToUse=env, rootedAtAtom=5)
print(smi)  # c(C)(cc)nc

MACCS指纹

MACCS (Molecular ACCess System) 分子指纹是一种用于表示分子结构信息的二进制指纹。MACCS分子指纹是基于分子中是否含有特定的亚结构来定义的,共包含166个不同的分子特征。每个特征都对应于一个特定的化学子结构,例如,一个羟基、一个苯环或一个氮原子等。如果分子中存在这个特征,则该特征对应的二进制位上的值为1,否则为0。MACCS分子指纹的长度为166位,它可以用于分子相似性比较、分子分类、分子聚类、分子筛选等许多领域中的化学信息学研究。

rdkit.Chem.MACCSkeys.GenMACCSKeys 函数来计算分子的MACCS指纹:

from rdkit.Chem import MACCSkeys
# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles("CCO")
fp = MACCSkeys.GenMACCSKeys(mol)
print(fp)
print(fp.ToBitString())

rdkit.Chem.rdMolDescriptors.GetMACCSKeysFingerprint 函数来计算分子的MACCS指纹:

from rdkit import Chem
from rdkit.Chem import rdMolDescriptors

# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles('CCO')

# 计算分子的MACCS指纹
fp = rdMolDescriptors.GetMACCSKeysFingerprint(mol)

# 输出结果
print('分子的MACCS指纹为:', fp)

其中,rdMolDescriptors.GetMACCSKeysFingerprint 函数的参数是一个RDKit分子对象。在上面的示例中,将SMILES字符串表示的分子对象转换为RDKit分子对象。

可以使用 ToBitString 方法将MACCS指纹转换为字符串形式:

# 将MACCS指纹转换为字符串形式
fp_str = fp.ToBitString()

# 输出结果
print('分子的MACCS指纹(字符串形式)为:', fp_str)

AtomPair指纹

AtomPair指纹是RDKit中一种常用的分子指纹类型,可以用于描述分子的空间和化学特征。它基于分子中原子对之间的距离和化学性质生成,具有以下特点:

  • 生成的指纹是一个固定长度的二进制向量,每个位表示一个原子对的存在或缺失。
  • 指纹的长度和参数可以根据需要进行调整,以平衡指纹的信息量和计算效率。
  • 可以使用不同的哈希函数来生成指纹,以增加指纹的多样性和鲁棒性。

以下是一个示例代码,演示如何使用 rdkit.Chem.AtomPairs.Pairs.GetAtomPairFingerprint 函数来计算分子的AtomPair指纹:

from rdkit import Chem
from rdkit.Chem.AtomPairs import Pairs

# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles('CCO')

# 计算分子的AtomPair指纹
fp = Pairs.GetAtomPairFingerprint(mol)

# 输出结果
print('分子的AtomPair指纹为:', fp)

# 由于包含在原子对指纹中的位空间很大,因此他们以稀疏的方式存储为字典形式
d = fp.GetNonzeroElements()
print(d)
## 位描述也可以像如下所示展示
de = Pairs.ExplainPairScore(558113)
print(de)  # (('C', 1, 0), 3, ('C', 2, 0))

TopologicalTorsion指纹

Topological (path-based) fingerprints. 化学拓扑性质来源于化学图,数学上表示为,其中,是节点(原子)集合,为边(化学键)集合。2D分子结构通常基于其拓扑性质表示,例如2D连接表,它是MOL和SDF的化合物格式的基本单元(图2)。化合物的常见拓扑性质包括:(1) 原子类型;(2) 每个非氢原子(邻接矩阵)的连接性(或度);(3) 每对原子的拓扑距离(距离矩阵);(4) 原子离心率(atom eccentricity);(4) 通过特定方法确定的化学键和原子的重量(weights of bonds and atoms by specified custom approaches)。化合物的片段(或子结构)和物理化学性质是分类和预测生物活性的重要基础。

from rdkit.Chem.AtomPairs import Torsions
# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles('CCO')
fp = Torsions.GetTopologicalTorsionFingerprintAsIntVect(mol)
print(fp.ToBinary())

参考

https://www.codenong.com/cs107013965/