{ "cells": [ { "cell_type": "markdown", "id": "4293a2f3-c374-46a3-9c6b-e953a5982130", "metadata": {}, "source": [ "# Pinder system" ] }, { "cell_type": "code", "execution_count": 1, "id": "656e3d46-72b2-42fd-b61c-f13d1a113bce", "metadata": {}, "outputs": [], "source": [ "from pathlib import Path\n", "\n", "from pinder.core import PinderSystem, get_index\n" ] }, { "cell_type": "markdown", "id": "00427ee6-105a-4901-b647-52d667cf9eac", "metadata": {}, "source": [ "Example usage of Pinder index API shown below. For more detailed usage examples, check the `pinder-index`notebook. " ] }, { "cell_type": "code", "execution_count": 2, "id": "71223020-07c6-4a55-ba37-2343e7b4c400", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | split | \n", "id | \n", "pdb_id | \n", "cluster_id | \n", "cluster_id_R | \n", "cluster_id_L | \n", "pinder_s | \n", "pinder_xl | \n", "pinder_af2 | \n", "uniprot_R | \n", "... | \n", "apo_L | \n", "apo_R_quality | \n", "apo_L_quality | \n", "chain1_neff | \n", "chain2_neff | \n", "chain_R | \n", "chain_L | \n", "contains_antibody | \n", "contains_antigen | \n", "contains_enzyme | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "test | \n", "3k1i__D1_O25709--3k1i__A1_O25448 | \n", "3k1i | \n", "cluster_26031_5179 | \n", "cluster_26031 | \n", "cluster_5179 | \n", "True | \n", "True | \n", "False | \n", "O25709 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "12.351562 | \n", "514.000000 | \n", "D1 | \n", "A1 | \n", "False | \n", "False | \n", "False | \n", "
1 | \n", "test | \n", "6qta__A1_G0SHE6--6qta__B1_G0SC29 | \n", "6qta | \n", "cluster_11327_11328 | \n", "cluster_11327 | \n", "cluster_11328 | \n", "False | \n", "True | \n", "False | \n", "G0SHE6 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "115.750000 | \n", "689.500000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "False | \n", "
2 | \n", "test | \n", "3vf0__B1_Q8IY67--3vf0__A2_P18206 | \n", "3vf0 | \n", "cluster_5612_993 | \n", "cluster_993 | \n", "cluster_5612 | \n", "True | \n", "True | \n", "False | \n", "Q8IY67 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "251.125000 | \n", "35.531250 | \n", "B1 | \n", "A2 | \n", "False | \n", "False | \n", "False | \n", "
3 | \n", "test | \n", "4aye__D1_Q9JXV4--4aye__A1_P08603 | \n", "4aye | \n", "cluster_3949_4866 | \n", "cluster_3949 | \n", "cluster_4866 | \n", "True | \n", "True | \n", "False | \n", "Q9JXV4 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "14.546875 | \n", "310.000000 | \n", "D1 | \n", "A1 | \n", "False | \n", "False | \n", "False | \n", "
4 | \n", "test | \n", "2w8b__A1_P0A855--2w8b__H1_P0A912 | \n", "2w8b | \n", "cluster_15535_1924 | \n", "cluster_15535 | \n", "cluster_1924 | \n", "True | \n", "True | \n", "False | \n", "P0A855 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "308.250000 | \n", "1150.000000 | \n", "A1 | \n", "H1 | \n", "False | \n", "False | \n", "False | \n", "
5 | \n", "test | \n", "5y4r__A1_O87131--5y4r__B1_Q9HVI1 | \n", "5y4r | \n", "cluster_8825_8826 | \n", "cluster_8825 | \n", "cluster_8826 | \n", "True | \n", "True | \n", "False | \n", "O87131 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "610.000000 | \n", "144.875000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
6 | \n", "test | \n", "3egv__A1_Q84BQ9--3egv__B1_Q5SLP6 | \n", "3egv | \n", "cluster_33015_371 | \n", "cluster_33015 | \n", "cluster_371 | \n", "True | \n", "True | \n", "False | \n", "Q84BQ9 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "806.500000 | \n", "637.000000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
7 | \n", "test | \n", "6wjc__A1_P11229--6wjc__B1_Q8QGR0 | \n", "6wjc | \n", "cluster_1057_1356 | \n", "cluster_1057 | \n", "cluster_1356 | \n", "True | \n", "True | \n", "False | \n", "P11229 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "462.750000 | \n", "518.500000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
8 | \n", "test | \n", "6tx3__B1_Q9NWY4--6tx3__A1_Q9UGN5 | \n", "6tx3 | \n", "cluster_11866_335 | \n", "cluster_11866 | \n", "cluster_335 | \n", "True | \n", "True | \n", "False | \n", "Q9NWY4 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "59.468750 | \n", "213.000000 | \n", "B1 | \n", "A1 | \n", "False | \n", "False | \n", "True | \n", "
9 | \n", "test | \n", "2grx__A1_P06971--2grx__C1_P02929 | \n", "2grx | \n", "cluster_12107_8897 | \n", "cluster_12107 | \n", "cluster_8897 | \n", "True | \n", "True | \n", "False | \n", "P06971 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "288.000000 | \n", "562.500000 | \n", "A1 | \n", "C1 | \n", "False | \n", "False | \n", "False | \n", "
10 | \n", "test | \n", "3kbu__A1_P11277--3kbu__D1_P16157 | \n", "3kbu | \n", "cluster_16732_8658 | \n", "cluster_8658 | \n", "cluster_16732 | \n", "True | \n", "True | \n", "False | \n", "P11277 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "229.625000 | \n", "210.625000 | \n", "A1 | \n", "D1 | \n", "False | \n", "False | \n", "False | \n", "
11 | \n", "test | \n", "2j0t__A1_P03956--2j0t__D1_P01033 | \n", "2j0t | \n", "cluster_939_940 | \n", "cluster_939 | \n", "cluster_940 | \n", "True | \n", "True | \n", "False | \n", "P03956 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "612.500000 | \n", "68.312500 | \n", "A1 | \n", "D1 | \n", "False | \n", "False | \n", "True | \n", "
12 | \n", "test | \n", "8a60__A1_P06971--8a60__B1_Q38162 | \n", "8a60 | \n", "cluster_12107_26846 | \n", "cluster_12107 | \n", "cluster_26846 | \n", "False | \n", "True | \n", "True | \n", "P06971 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "288.000000 | \n", "2.734375 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "False | \n", "
13 | \n", "test | \n", "4je4__A1_Q06124--4je4__B1_P02751 | \n", "4je4 | \n", "cluster_1465_1605 | \n", "cluster_1465 | \n", "cluster_1605 | \n", "True | \n", "True | \n", "False | \n", "Q06124 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "611.000000 | \n", "75.062500 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "False | \n", "
14 | \n", "test | \n", "4uae__A1_O00629--4uae__B1_P31345 | \n", "4uae | \n", "cluster_10331_1373 | \n", "cluster_1373 | \n", "cluster_10331 | \n", "False | \n", "True | \n", "False | \n", "O00629 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "240.750000 | \n", "3.058594 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "False | \n", "
15 | \n", "test | \n", "3k9m__A1_P07858--3k9m__B1_P01040 | \n", "3k9m | \n", "cluster_4628_6704 | \n", "cluster_6704 | \n", "cluster_4628 | \n", "True | \n", "True | \n", "False | \n", "P07858 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "770.000000 | \n", "429.750000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
16 | \n", "test | \n", "2wo2__A1_P54764--2wo2__B1_P52799 | \n", "2wo2 | \n", "cluster_130_8064 | \n", "cluster_130 | \n", "cluster_8064 | \n", "True | \n", "True | \n", "False | \n", "P54764 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "567.500000 | \n", "104.562500 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
17 | \n", "test | \n", "5dob__A1_P16794--5dob__B1_P16791 | \n", "5dob | \n", "cluster_12247_23692 | \n", "cluster_12247 | \n", "cluster_23692 | \n", "False | \n", "True | \n", "False | \n", "P16794 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "3.312500 | \n", "3.855469 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "False | \n", "
18 | \n", "test | \n", "8i2e__A1_O34841--8i2e__B1_P54421 | \n", "8i2e | \n", "cluster_11087_12465 | \n", "cluster_12465 | \n", "cluster_11087 | \n", "True | \n", "True | \n", "True | \n", "O34841 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "9.031250 | \n", "865.000000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
19 | \n", "test | \n", "1zlh__A1_P00730--1zlh__B1_Q5EPH2 | \n", "1zlh | \n", "cluster_2416_8594 | \n", "cluster_2416 | \n", "cluster_8594 | \n", "True | \n", "True | \n", "False | \n", "P00730 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "541.000000 | \n", "637.000000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
20 | \n", "test | \n", "6yev__C1_P0A744--6yev__A1_P0AA25 | \n", "6yev | \n", "cluster_4231_621 | \n", "cluster_4231 | \n", "cluster_621 | \n", "True | \n", "True | \n", "False | \n", "P0A744 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "1099.000000 | \n", "1440.000000 | \n", "C1 | \n", "A1 | \n", "False | \n", "False | \n", "True | \n", "
21 | \n", "test | \n", "1dtd__A1_P48052--1dtd__B1_P81511 | \n", "1dtd | \n", "cluster_2416_9476 | \n", "cluster_2416 | \n", "cluster_9476 | \n", "True | \n", "True | \n", "False | \n", "P48052 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "581.000000 | \n", "8.781250 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
22 | \n", "test | \n", "7fn1__B1_P32357--7fn1__A1_P33334 | \n", "7fn1 | \n", "cluster_635_7263 | \n", "cluster_7263 | \n", "cluster_635 | \n", "True | \n", "True | \n", "False | \n", "P32357 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "8.070312 | \n", "69.062500 | \n", "B1 | \n", "A1 | \n", "False | \n", "False | \n", "False | \n", "
23 | \n", "test | \n", "1yu6__A1_P00780--1yu6__C1_P68390 | \n", "1yu6 | \n", "cluster_1952_5091 | \n", "cluster_1952 | \n", "cluster_5091 | \n", "True | \n", "True | \n", "False | \n", "P00780 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "1000.000000 | \n", "704.000000 | \n", "A1 | \n", "C1 | \n", "False | \n", "False | \n", "True | \n", "
24 | \n", "test | \n", "6s8v__B1_P08195--6s8v__A1_P80188 | \n", "6s8v | \n", "cluster_19347_5331 | \n", "cluster_19347 | \n", "cluster_5331 | \n", "True | \n", "True | \n", "False | \n", "P08195 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "511.000000 | \n", "34.812500 | \n", "B1 | \n", "A1 | \n", "False | \n", "False | \n", "False | \n", "
25 | \n", "test | \n", "5ja2__A1_P11454--5ja2__B1_Q9I169 | \n", "5ja2 | \n", "cluster_4489_7234 | \n", "cluster_7234 | \n", "cluster_4489 | \n", "True | \n", "True | \n", "False | \n", "P11454 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "641.500000 | \n", "545.500000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
26 | \n", "test | \n", "6f3z__A1_P0ADC3--6f3z__B1_P61316 | \n", "6f3z | \n", "cluster_12985_22189 | \n", "cluster_22189 | \n", "cluster_12985 | \n", "True | \n", "True | \n", "False | \n", "P0ADC3 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "402.500000 | \n", "368.000000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "False | \n", "
27 | \n", "test | \n", "8gt0__A1_Q8I6U4--8gt0__B1_P01040 | \n", "8gt0 | \n", "cluster_2085_4628 | \n", "cluster_2085 | \n", "cluster_4628 | \n", "True | \n", "True | \n", "False | \n", "Q8I6U4 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "651.000000 | \n", "429.750000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
28 | \n", "test | \n", "2gkv__A1_P00777--2gkv__B1_P68390 | \n", "2gkv | \n", "cluster_5091_5268 | \n", "cluster_5268 | \n", "cluster_5091 | \n", "True | \n", "True | \n", "False | \n", "P00777 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "409.000000 | \n", "704.000000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
29 | \n", "test | \n", "6m4v__A1_P0AEX9--6m4v__B1_P62942 | \n", "6m4v | \n", "cluster_1772_409 | \n", "cluster_409 | \n", "cluster_1772 | \n", "True | \n", "True | \n", "False | \n", "P0AEX9 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "171.250000 | \n", "1408.000000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
30 | \n", "test | \n", "4us1__B1_Q07889--4us1__A1_P01112 | \n", "4us1 | \n", "cluster_10806_437 | \n", "cluster_10806 | \n", "cluster_437 | \n", "True | \n", "True | \n", "False | \n", "Q07889 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "183.375000 | \n", "946.500000 | \n", "B1 | \n", "A1 | \n", "False | \n", "False | \n", "False | \n", "
31 | \n", "test | \n", "1tec__A1_P04072--1tec__B1_P01051 | \n", "1tec | \n", "cluster_1952_387 | \n", "cluster_1952 | \n", "cluster_387 | \n", "True | \n", "True | \n", "False | \n", "P04072 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "1017.500000 | \n", "133.750000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
32 | \n", "test | \n", "1zhh__A1_P54300--1zhh__B1_P54302 | \n", "1zhh | \n", "cluster_3962_8641 | \n", "cluster_3962 | \n", "cluster_8641 | \n", "True | \n", "True | \n", "False | \n", "P54300 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "23.531250 | \n", "524.500000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "False | \n", "
33 | \n", "test | \n", "5n47__B1_P02751--5n47__A1_P80188 | \n", "5n47 | \n", "cluster_1605_5331 | \n", "cluster_1605 | \n", "cluster_5331 | \n", "True | \n", "True | \n", "False | \n", "P02751 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "75.062500 | \n", "34.812500 | \n", "B1 | \n", "A1 | \n", "False | \n", "False | \n", "False | \n", "
34 | \n", "test | \n", "7b80__A1_G3I8R9--7b80__B1_Q9BVA6 | \n", "7b80 | \n", "cluster_1039_643 | \n", "cluster_643 | \n", "cluster_1039 | \n", "True | \n", "True | \n", "False | \n", "G3I8R9 | \n", "... | \n", "True | \n", "high | \n", "high | \n", "1069.000000 | \n", "526.500000 | \n", "A1 | \n", "B1 | \n", "False | \n", "False | \n", "True | \n", "
35 rows × 34 columns
\n", "\n", " | chain_id | \n", "res_name | \n", "res_code | \n", "res_id | \n", "atom_name | \n", "b_factor | \n", "ins_code | \n", "hetero | \n", "element | \n", "x | \n", "y | \n", "z | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "R | \n", "HIS | \n", "H | \n", "1 | \n", "N | \n", "0.0 | \n", "\n", " | False | \n", "N | \n", "69.377380 | \n", "105.086411 | \n", "-51.232784 | \n", "
1 | \n", "R | \n", "HIS | \n", "H | \n", "1 | \n", "CA | \n", "0.0 | \n", "\n", " | False | \n", "C | \n", "69.471100 | \n", "103.738152 | \n", "-50.680832 | \n", "
2 | \n", "R | \n", "HIS | \n", "H | \n", "1 | \n", "C | \n", "0.0 | \n", "\n", " | False | \n", "C | \n", "70.264641 | \n", "103.716263 | \n", "-49.368172 | \n", "
3 | \n", "R | \n", "HIS | \n", "H | \n", "1 | \n", "O | \n", "0.0 | \n", "\n", " | False | \n", "O | \n", "70.223633 | \n", "102.714134 | \n", "-48.653946 | \n", "
4 | \n", "R | \n", "HIS | \n", "H | \n", "1 | \n", "CB | \n", "0.0 | \n", "\n", " | False | \n", "C | \n", "70.093376 | \n", "102.773239 | \n", "-51.701916 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
2350 | \n", "L | \n", "ARG | \n", "R | \n", "170 | \n", "CA | \n", "0.0 | \n", "\n", " | False | \n", "C | \n", "45.438419 | \n", "86.089317 | \n", "-54.533417 | \n", "
2351 | \n", "L | \n", "LYS | \n", "K | \n", "171 | \n", "CA | \n", "0.0 | \n", "\n", " | False | \n", "C | \n", "44.941048 | \n", "83.492149 | \n", "-57.280712 | \n", "
2352 | \n", "L | \n", "THR | \n", "T | \n", "172 | \n", "CA | \n", "0.0 | \n", "\n", " | False | \n", "C | \n", "46.387222 | \n", "85.555809 | \n", "-60.138443 | \n", "
2353 | \n", "L | \n", "PRO | \n", "P | \n", "173 | \n", "CA | \n", "0.0 | \n", "\n", " | False | \n", "C | \n", "49.873405 | \n", "84.154137 | \n", "-59.526482 | \n", "
2354 | \n", "L | \n", "TRP | \n", "W | \n", "174 | \n", "CA | \n", "0.0 | \n", "\n", " | False | \n", "C | \n", "50.158195 | \n", "80.451759 | \n", "-60.405190 | \n", "
2355 rows × 12 columns
\n", "\n", " | entry_id | \n", "entity_id | \n", "asym_id | \n", "pdb_strand_id | \n", "resi | \n", "resi_pdb | \n", "resi_auth | \n", "resn | \n", "one_letter_code_can | \n", "resolved | \n", "one_letter_code_uniprot | \n", "resi_uniprot | \n", "uniprot_acc | \n", "chain | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "NaN | \n", "1 | \n", "A | \n", "A | \n", "3 | \n", "39 | \n", "39.0 | \n", "LEU | \n", "L | \n", "1 | \n", "L | \n", "39 | \n", "NaN | \n", "A1 | \n", "
1 | \n", "NaN | \n", "1 | \n", "A | \n", "A | \n", "4 | \n", "40 | \n", "40.0 | \n", "ASP | \n", "D | \n", "1 | \n", "D | \n", "40 | \n", "NaN | \n", "A1 | \n", "
2 | \n", "NaN | \n", "1 | \n", "A | \n", "A | \n", "5 | \n", "41 | \n", "41.0 | \n", "PRO | \n", "P | \n", "1 | \n", "P | \n", "41 | \n", "NaN | \n", "A1 | \n", "
3 | \n", "NaN | \n", "1 | \n", "A | \n", "A | \n", "6 | \n", "42 | \n", "42.0 | \n", "GLU | \n", "E | \n", "1 | \n", "E | \n", "42 | \n", "NaN | \n", "A1 | \n", "
4 | \n", "NaN | \n", "1 | \n", "A | \n", "A | \n", "7 | \n", "43 | \n", "43.0 | \n", "GLU | \n", "E | \n", "1 | \n", "E | \n", "43 | \n", "NaN | \n", "A1 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
446 | \n", "NaN | \n", "1 | \n", "A | \n", "A | \n", "170 | \n", "1128 | \n", "1128.0 | \n", "ARG | \n", "R | \n", "1 | \n", "R | \n", "1128 | \n", "NaN | \n", "A1 | \n", "
447 | \n", "NaN | \n", "1 | \n", "A | \n", "A | \n", "171 | \n", "1129 | \n", "1129.0 | \n", "LYS | \n", "K | \n", "1 | \n", "K | \n", "1129 | \n", "NaN | \n", "A1 | \n", "
448 | \n", "NaN | \n", "1 | \n", "A | \n", "A | \n", "172 | \n", "1130 | \n", "1130.0 | \n", "THR | \n", "T | \n", "1 | \n", "T | \n", "1130 | \n", "NaN | \n", "A1 | \n", "
449 | \n", "NaN | \n", "1 | \n", "A | \n", "A | \n", "173 | \n", "1131 | \n", "1131.0 | \n", "PRO | \n", "P | \n", "1 | \n", "P | \n", "1131 | \n", "NaN | \n", "A1 | \n", "
450 | \n", "NaN | \n", "1 | \n", "A | \n", "A | \n", "174 | \n", "1132 | \n", "1132.0 | \n", "TRP | \n", "W | \n", "1 | \n", "W | \n", "1132 | \n", "NaN | \n", "A1 | \n", "
451 rows × 14 columns
\n", "