switch over to the template SMILES that align with mmCIF pull requested in earlier by @amorehead

lucidrains · lucidrains · commit 7f6308a8fc39 · 2024-07-15T13:47:24.000-07:00
diff --git a/alphafold3_pytorch/life.py b/alphafold3_pytorch/life.py
@@ -22,160 +22,140 @@ def is_unique(arr):
 
 HUMAN_AMINO_ACIDS = dict(
     A = dict(
-        smile = 'CC(C(=O)O)N',
-        # template_smile = 'NC(C=O)C',
+        smile = 'NC(C=O)C',
         first_atom_idx = 5,
         last_atom_idx = 2,
         distogram_atom_idx = 1,
         token_center_atom_idx = 1,
     ),
     R = dict(
-        smile = 'C(CC(C(=O)O)N)CN=C(N)N',
-        # template_smile = 'NC(C=O)CCCNC(N)=N',
+        smile = 'NC(C=O)CCCNC(N)=N',
         first_atom_idx = 6,
         last_atom_idx = 3,
         distogram_atom_idx = 2,
         token_center_atom_idx = 2,
     ),
     N = dict(
-        smile = 'C(C(C(=O)O)N)C(=O)N',
-        # template_smile = 'NC(C=O)CC(=O)N',
+        smile = 'NC(C=O)CC(=O)N',
         first_atom_idx = 5,
         last_atom_idx = 2,
         distogram_atom_idx = 1,
         token_center_atom_idx = 1,
     ),
     D = dict(
-        smile = 'C(C(C(=O)O)N)C(=O)O',
-        # template_smile = 'NC(C=O)CC(=O)O',
+        smile = 'NC(C=O)CC(=O)O',
         first_atom_idx = 5,
         last_atom_idx = 2,
         distogram_atom_idx = 1,
         token_center_atom_idx = 1,
     ),
     C = dict(
-        smile = 'C(C(C(=O)O)N)S',
-        # template_smile = 'NC(C=O)CS',
+        smile = 'NC(C=O)CS',
         first_atom_idx = 5,
         last_atom_idx = 2,
         distogram_atom_idx = 1,
         token_center_atom_idx = 1,
     ),
     Q = dict(
-        smile = 'C(CC(=O)N)C(C(=O)O)N',
-        # template_smile = 'NC(C=O)CCC(=O)N',
+        smile = 'NC(C=O)CCC(=O)N',
         first_atom_idx = 9,
         last_atom_idx = 6,
         distogram_atom_idx = 5,
         token_center_atom_idx = 5,
     ),
     E = dict(
-        smile = 'C(CC(=O)O)C(C(=O)O)N',
-        # template_smile = 'NC(C=O)CCC(=O)O',
+        smile = 'NC(C=O)CCC(=O)O',
         first_atom_idx = 9,
         last_atom_idx = 6,
         distogram_atom_idx = 5,
         token_center_atom_idx = 5,
     ),
     G = dict(
-        smile = 'C(C(=O)O)N',
-        # template_smile = 'NCC=O',
+        smile = 'NCC=O',
         first_atom_idx = 4,
         last_atom_idx = 1,
         distogram_atom_idx = 0,
         token_center_atom_idx = 0,
     ),
     H = dict(
-        smile = 'C1=C(NC=N1)CC(C(=O)O)N',
-        # template_smile = 'NC(C=O)CC1=CNC=N1',
+        smile = 'NC(C=O)CC1=CNC=N1',
         first_atom_idx = 10,
         last_atom_idx = 7,
         distogram_atom_idx = 0,
         token_center_atom_idx = 0,
     ),
     I = dict(
-        smile = 'CCC(C)C(C(=O)O)N',
-        # template_smile = 'NC(C=O)C(CC)C',
+        smile = 'NC(C=O)C(CC)C',
         first_atom_idx = 8,
         last_atom_idx = 5,
         distogram_atom_idx = 0,
         token_center_atom_idx = 0,
     ),
     L = dict(
-        smile = 'CC(C)CC(C(=O)O)N',
-        # template_smile = 'NC(C=O)CC(C)C',
+        smile = 'NC(C=O)CC(C)C',
         first_atom_idx = 8,
         last_atom_idx = 5,
         distogram_atom_idx = 4,
         token_center_atom_idx = 4,
     ),
     K = dict(
-        smile = 'C(CCN)CC(C(=O)O)N',
-        # template_smile = 'NC(C=O)CCCCN',
+        smile = 'NC(C=O)CCCCN',
         first_atom_idx = 9,
         last_atom_idx = 6,
         distogram_atom_idx = 5,
         token_center_atom_idx = 5,
     ),
     M = dict(
-        smile = 'CSCCC(C(=O)O)N',
-        # template_smile = 'NC(C=O)CCSC',
+        smile = 'NC(C=O)CCSC',
         first_atom_idx = 8,
         last_atom_idx = 5,
         distogram_atom_idx = 4,
         token_center_atom_idx = 4,
     ),
     F = dict(
-        smile = 'C1=CC=C(C=C1)CC(C(=O)O)N',
-        # template_smile = 'NC(C=O)CC1=CC=CC=C1',
+        smile = 'NC(C=O)CC1=CC=CC=C1',
         first_atom_idx = 11,
         last_atom_idx = 8,
         distogram_atom_idx = 7,
         token_center_atom_idx = 7,
     ),
     P = dict(
-        smile = 'C1CC(NC1)C(=O)O',
-        # template_smile = 'N1C(C=O)CCC1',
+        smile = 'N1C(C=O)CCC1',
         first_atom_idx = 3,
         last_atom_idx = 5,
         distogram_atom_idx = 2,
         token_center_atom_idx = 2,
     ),
     S = dict(
-        smile = 'C(C(C(=O)O)N)O',
-        # template_smile = 'NC(C=O)CO',
+        smile = 'NC(C=O)CO',
         first_atom_idx = 5,
         last_atom_idx = 2,
         distogram_atom_idx = 1,
         token_center_atom_idx = 1,
     ),
     T = dict(
-        smile = 'CC(C(C(=O)O)N)O',
-        # template_smile = 'NC(C=O)C(O)C',
+        smile = 'NC(C=O)C(O)C',
         first_atom_idx = 6,
         last_atom_idx = 3,
         distogram_atom_idx = 2,
         token_center_atom_idx = 2,
     ),
     W = dict(
-        smile = 'C1=CC=C2C(=C1)C(=CN2)CC(C(=O)O)N',
-        # template_smile = 'NC(C=O)CC1=CNC2=C1C=CC=C2',
+        smile = 'NC(C=O)CC1=CNC2=C1C=CC=C2',
         first_atom_idx = 14,
         last_atom_idx = 11,
         distogram_atom_idx = 10,
         token_center_atom_idx = 10,
     ),
     Y = dict(
-        smile = 'C1=CC(=CC=C1CC(C(=O)O)N)O',
-        # template_smile = 'NC(C=O)CC1=CC=C(O)C=C1',
+        smile = 'NC(C=O)CC1=CC=C(O)C=C1',
         first_atom_idx = 11,
         last_atom_idx = 8,
         distogram_atom_idx = 7,
         token_center_atom_idx = 7,
     ),
     V = dict(
-        smile = 'CC(C)C(C(=O)O)N',
-        # template_smile = 'NC(C=O)C(C)C',
+        smile = 'NC(C=O)C(C)C',
         first_atom_idx = 7,
         last_atom_idx = 4,
         distogram_atom_idx = 3,
@@ -188,35 +168,31 @@ def is_unique(arr):
 
 DNA_NUCLEOTIDES = dict(
     A = dict(
-        smile = 'C1C(C(OC1N2C=NC3=C(N=CN=C32)N)COP(=O)(O)O)O',
-        # template_smile = 'OP(=O)(O)OCC1OC(N2C=NC3=C2N=CN=C3N)CC1O',
+        smile = 'OP(=O)(O)OCC1OC(N2C=NC3=C2N=CN=C3N)CC1O',
         complement = 'T',
         first_atom_idx = 20,
         last_atom_idx = 1,
         distogram_atom_idx = 4,
         token_center_atom_idx = 4,
     ),
     C = dict(
-        smile = 'C1C(C(OC1N2C=CC(=NC2=O)N)COP(=O)(O)O)O',
-        # template_smile = 'OP(=O)(O)OCC1OC(N2C(=O)N=C(N)C=C2)CC1O',
+        smile = 'OP(=O)(O)OCC1OC(N2C(=O)N=C(N)C=C2)CC1O',
         complement = 'G',
         first_atom_idx = 17,
         last_atom_idx = 1,
         distogram_atom_idx = 4,
         token_center_atom_idx = 4,
     ),
     G = dict(
-        smile = 'C1C(C(OC1N2C=NC3=C2N=C(NC3=O)N)COP(=O)(O)O)O',
-        # template_smile = 'OP(=O)(O)OCC1OC(N2C=NC3=C2N=C(N)NC3=O)CC1O',
+        smile = 'OP(=O)(O)OCC1OC(N2C=NC3=C2N=C(N)NC3=O)CC1O',
         complement = 'C',
         first_atom_idx = 21,
         last_atom_idx = 1,
         distogram_atom_idx = 4,
         token_center_atom_idx = 4,
     ),
     T = dict(
-        smile = 'CC1=CN(C(=O)NC1=O)C2CC(C(O2)COP(=O)(O)O)O',
-        # template_smile = 'OP(=O)(O)OCC1OC(N2C(=O)NC(=O)C(C)=C2)CC1O',
+        smile = 'OP(=O)(O)OCC1OC(N2C(=O)NC(=O)C(C)=C2)CC1O',
         complement = 'A',
         first_atom_idx = 19,
         last_atom_idx = 11,
@@ -227,35 +203,31 @@ def is_unique(arr):
 
 RNA_NUCLEOTIDES = dict(
     A = dict(
-        smile = 'C1=NC(=C2C(=N1)N(C=N2)C3C(C(C(O3)COP(=O)(O)O)O)O)N',
-        # template_smile = 'OP(=O)(O)OCC1OC(N2C=NC3=C2N=CN=C3N)C(O)C1O',
+        smile = 'OP(=O)(O)OCC1OC(N2C=NC3=C2N=CN=C3N)C(O)C1O',
         complement = 'U',
         first_atom_idx = 19,
         last_atom_idx = 11,
         distogram_atom_idx = 9,
         token_center_atom_idx = 9,
     ),
     C = dict(
-        smile = 'C1=CN(C(=O)N=C1N)C2C(C(C(O2)COP(=O)([O-])[O-])O)O',
-        # template_smile = 'OP(=O)(O)OCC1OC(N2C(=O)N=C(N)C=C2)C(O)C1O',
+        smile = 'OP(=O)(O)OCC1OC(N2C(=O)N=C(N)C=C2)C(O)C1O',
         complement = 'G',
         first_atom_idx = 17,
         last_atom_idx = 10,
         distogram_atom_idx = 8,
         token_center_atom_idx = 8,
     ),
     G = dict(
-        smile = 'C1=NC2=C(N1C3C(C(C(O3)COP(=O)(O)O)O)O)N=C(NC2=O)N',
-        # template_smile = 'OP(=O)(O)OCC1OC(N2C=NC3=C2N=C(N)NC3=O)C(O)C1O',
+        smile = 'OP(=O)(O)OCC1OC(N2C=NC3=C2N=C(N)NC3=O)C(O)C1O',
         complement = 'C',
         first_atom_idx = 14,
         last_atom_idx = 7,
         distogram_atom_idx = 5,
         token_center_atom_idx = 5,
     ),
     U = dict(
-        smile = 'C1=CN(C(=O)NC1=O)C2C(C(C(O2)COP(=O)(O)O)O)O',
-        # template_smile = 'OP(=O)(O)OCC1OC(N2C(=O)NC(=O)C=C2)C(O)C1O',
+        smile = 'OP(=O)(O)OCC1OC(N2C(=O)NC(=O)C=C2)C(O)C1O',
         complement = 'A',
         first_atom_idx = 18,
         last_atom_idx = 10,
@@ -517,4 +489,5 @@ def mol_from_template_mmcif_file(
     assert 0 <= entry['distogram_atom_idx'] < num_atoms
     assert 0 <= entry['first_atom_idx'] < num_atoms
     assert 0 <= entry['last_atom_idx'] < num_atoms
+    assert entry['first_atom_idx'] != entry['last_atom_idx']
     assert 0 <= entry['token_center_atom_idx'] < num_atoms
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "alphafold3-pytorch"
-version = "0.1.123"
+version = "0.1.124"
 description = "Alphafold 3 - Pytorch"
 authors = [
     { name = "Phil Wang", email = "lucidrains@gmail.com" }
diff --git a/tests/test_input.py b/tests/test_input.py
@@ -86,8 +86,8 @@ def test_atompos_input():
     contrived_protein = 'AG'
 
     mock_atompos = [
-        torch.randn(6, 3),   # alanine has 6 non-hydrogen atoms
-        torch.randn(5, 3)    # glycine has 5 non-hydrogen atoms
+        torch.randn(5, 3),   # alanine has 5 non-hydrogen atoms
+        torch.randn(4, 3)    # glycine has 4 non-hydrogen atoms
     ]
 
     train_alphafold3_input = Alphafold3Input(
@@ -138,7 +138,7 @@ def test_atompos_input():
     alphafold3.eval()
     sampled_atom_pos = alphafold3(**batched_eval_atom_input.dict())
 
-    assert sampled_atom_pos.shape == (1, (6 + 5), 3)
+    assert sampled_atom_pos.shape == (1, (5 + 4), 3)
 
 def test_pdbinput_input():
     pytest.skip("This unit test is currently disabled while the PDB featurization pipeline is under development.")