Proteinstruktur prediksjon

Den proteinstrukturprediksjon omfatter alle metoder for beregning av den tredimensjonale struktur av den brettede molekylet fra aminosyresekvensen til et protein . Det er et av de viktige målene for bioinformatikk og teoretisk kjemi . Det oppstår fra den praktiske vanskeligheten med å måle atomstrukturen til et protein i naturen ved hjelp av fysiske metoder. Spesielt er det et stort behov for de eksakte atomposisjonene i tertiærstrukturen ; de danner grunnlaget for legemiddeldesign og andre metoder innen bioteknologi .

Metodene for prediksjon av proteinstruktur utviklet så langt bygger på kunnskapen om den primære strukturen for å postulere den sekundære strukturen og / eller den tertiære strukturen. Et annet detaljert problem er bestemmelsen av den kvartære strukturen ut fra tilgjengelige tertiære strukturdata. Implementeringer av algoritmene som er utviklet er stort sett tilgjengelige i kildekoden eller som WWW-servere ; De kunstige intelligenssystemene fra DeepMind er et spesielt tilfelle. Publikasjoner blir gjort om strukturen og egenskapene, men blir ikke fullstendig avslørt. På grunn av den enorme betydningen av en endelig løsning på problemet, har det blitt etablert en toårig konkurranse med CASP siden 1994 for å sammenligne de beste løsningsmetodene. I 2018 og 2020 ble konkurransen vunnet av DeepMind-produktene AlphaFold og AlphaFold2, med prognoseresultatene for 2020 som var så gode at det ble sagt for første gang at problemet i prinsippet kunne sees på som løst.

motivasjon

Å bestemme den naturlige proteinstrukturen ved hjelp av fysiske metoder er mulig for mange, men på ingen måte alle proteiner og innebærer høye kostnader og tid. Innen 2012 kunne strukturene til rundt 50000 forskjellige proteiner bestemmes ved hjelp av NMR og røntgenstrukturanalyse (dette tallet reduseres til 30.000 hvis proteiner med mer enn 10 prosent sekvensforskjell vurderes). I 2020 var 100 000 strukturer eller strukturelle deler allerede kjent og registrert i databaser. Dette står i kontrast med anslagsvis 30 millioner proteinsekvenser. Det er derfor et stort behov for en pålitelig, rent beregningsmetode for å bestemme proteinstrukturen fra aminosyresekvensen. Den forventede akselerasjonen av sekvensering av hele genomer , til og med hele økologiske metagenomer , øker avviket mellom kjente primære og tertiære strukturer og gjør dermed løsningen av problemet enda mer presserende.

Sekundære strukturhensyn

Forutsigelsen av den sekundære strukturen er en samling av bioinformatiske teknikker rettet mot den sekundære strukturen til proteiner og RNA som bruker deres primære struktur for å forutsi (aminosyrer eller nukleotider). Når det gjelder proteiner, som bare er diskutert nedenfor, består prediksjonen i å markere visse seksjoner av aminosyresekvensen som sannsynlig α-helix , β-ark , β-loop eller som strukturløs. Suksess bestemmes ved å sammenligne prediksjonen med resultatet av DSSP- algoritmen som brukes på den faktiske strukturen. I tillegg til disse generelle strukturmotivene, finnes det også algoritmer for å gjenkjenne spesielle, veldefinerte strukturmotiver som transmembrane helixer eller spiralformede spoler .

I 2012 oppnådde de beste metodene for sekundær strukturforutsigelse omtrent 80 prosent nøyaktighet, noe som gjør det mulig å bruke dem i deteksjon av oppløsning, ab prediksjon strukturforutsigelse og sekvensjustering. Utviklingen av nøyaktigheten av metodene for sekundær strukturforutsigelse er dokumentert av ukentlige referanser som LiveBench og EVA.

Tertiære strukturelle hensyn

Siden en fullstendig omberegning (ab initio) av proteinstrukturen ved bruk av rent fysisk-energiske og kvantekjemiske metoder er for tidkrevende selv for små proteiner, har algoritmer for strukturforutsigelse etablert seg som enten er avhengige av en klassifisering av individuelle deler av aminosyresekvens eller på forutsagte kontaktkart i et andre trinn, beregne de endelige atomposisjonene.

Strukturklasser / domener

Forskjellige statistiske metoder har dukket opp for å klassifisere ukjente proteiner. Den mest vellykkede bruker Hidden Markov-modeller , som også lykkes med å løse problemet med talegjenkjenning . De respektive oppgavene kan av strukturell biologi - databaser som Pfam og InterPro kan lastes ned. Hvis en proteinstruktur allerede er kjent i en klasse, kan strukturene til andre medlemmer beregnes ved komparativ prediksjon. I det andre tilfellet er en ny metode tilgjengelig med prediksjon av kontaktkartet til en strukturklasse, som ikke lenger er avhengig av fysisk strukturbestemmelse.

Prediksjon fra evolusjonær informasjon

Med tilgjengeligheten av store mengder genomiske sekvenser blir det mulig å studere samevolusjonen av aminosyrer i proteinfamilier. Det kan antas at den tredimensjonale strukturen til proteinene i en strukturelt konservert proteinfamilie ikke endres signifikant i løpet av evolusjonen. Brettingen av proteinet skyldes interaksjoner mellom de enkelte aminosyrene. Hvis en av aminosyrene i proteinet endrer seg som et resultat av en mutasjon, kan stabiliteten til proteinet reduseres og må gjenopprettes gjennom kompenserende (korrelerte) mutasjoner.

Flere statistiske metoder eksisterer for å bestemme evolusjonært koblede posisjoner innenfor en strukturelt klassifisert proteinfamilie, hvorved flersekvensjusteringen av den respektive familien fungerer som input . Tidlige metoder brukte lokale statistiske modeller som bare vurderer to aminosyreposisjoner i sekvensen samtidig, noe som fører til utilstrekkelig prediksjonsnøyaktighet på grunn av transitive effekter. Eksempler på dette er McLachlan Based Substitution correlation (McBASC), observert versus forventede frekvenser av restpar (OMES), statistisk koblingsanalyse (SCA) og metoder basert på gjensidig informasjon (MI).

Det var bare gjennom bruk av globale statistiske tilnærminger som maksimal entropimetode (invers Potts-modell) eller delvise korrelasjoner at det ble mulig å skille årsaks koevolusjon mellom aminosyrer fra indirekte, transitive effekter. I tillegg til overlegenheten til globale modeller for kontaktforutsigelse, ble det vist for første gang i 2011 at de forutsagte aminosyrekontaktene kan brukes til å forutsi 3D-proteinstrukturer ut fra sekvensinformasjon alene. Ingen relaterte strukturer eller fragmenter brukes, og beregningene kan utføres på en vanlig datamaskin i løpet av få timer, selv for proteiner med flere hundre aminosyrer. Senere publikasjoner viste at transmembrane proteiner også kan forutsies med betydelig nøyaktighet.

Ab initio spådom

Hver naiv (uten forkunnskaper) prediksjonsmetode for proteinstruktur må kunne måle den astronomiske størrelsen på rommet som det skal søkes etter mulige strukturer. Levinthal Paradox brukes til å illustrere dette . Ab initio (også: de novo ) metoder er bare basert på anvendelse av fysiske prinsipper (kvantekjemi) på den kjente primære strukturen for å oppnå en simulering av foldeprosessen. Andre metoder starter fra mulige strukturer og prøver å optimalisere en passende evalueringsfunksjon, som vanligvis inneholder beregningen av fri entalpi ( Anfinsen dogma ). Slike beregninger krever fortsatt en superdatamaskin og kan bare utføres for de minste proteinene. Ideen om å gi datakraft for ab initio-prediksjon gjennom distribuert databehandling førte til implementering av Folding @ home , Human Proteome Folding Project og Rosetta @ home- prosjekter . Til tross for den nødvendige datakraften, er ab initio et aktivt forskningsområde.

Sammenlignende prognose

Sammenlignende proteinmodellering bruker kjente (fysisk målte) strukturer som utgangspunkt eller mal. Dette fungerer i tilfeller der det eksisterer et homologt protein med en kjent struktur. Siden proteinstrukturene ikke utviklet seg vilkårlig, men alltid er assosiert med en biologisk funksjon, kan proteiner kombineres i grupper som både er strukturelt homologe og funksjonelt ensartede, og medlemskap i en slik gruppe kan lett bli funnet ved hjelp av maskinlæring ( HMM ). så). På den annen side prøver strukturbiologer å fysisk måle et representativt protein for minst hver av disse proteingruppene, slik at ideelt sett kan alle gjenværende proteinstrukturer forutsies ved sammenligning.

Homologimodellering

Homologimodellering har nå etablert seg i komparativ prediksjon : aminosyresekvensen som skal undersøkes overføres til kjente proteinstrukturer (maler) ved hjelp av peptidbindinger og de resulterende fyllingene blir undersøkt. Fra dette kan det trekkes hvilken struktur den undersøkte sekvensen antar avhengig av malstrukturen.

Forutsetningen er at malen og prøvesekvensen er egnet for en vanlig strukturell folding og kan justeres med hverandre, fordi sekvensjustering er hovedproblemet i sammenlignende modellering. Uten tvil oppnås de beste resultatene med veldig like sekvenser.

Prognose fra kontaktkart

Inndelingen av proteiner i strukturelle grupper tillater prediksjon av et kontaktkart for denne gruppen ved å beregne koblede posisjoner i justeringen (se ovenfor). På den annen side får strukturbiologer i utgangspunktet et kontaktkart når proteinstrukturen måles fysisk ved hjelp av NMR. Algoritmer ble derfor utviklet tidlig for å få konklusjoner om proteintertiærstrukturen fra et kontaktkart. Det er nå i prinsippet mulig å pålitelig forutsi proteinstrukturen fra hvilke som helst sekvenser så lenge en stor mengde sekvenser av proteiner av samme gruppering er tilgjengelig for å bestemme koblede posisjoner og dermed et kontaktkart. Med det økende tempoet i sekvensering er det allerede nok bakteriegenomer (nesten 10 000) tilgjengelig for å kunne bruke metoden til dem og for eksempel å modellere membranproteiner. Men antall eukaryote sekvenser er også tilstrekkelig i noen tilfeller, og situasjonen i denne forbindelse er merkbart avslappet.

Forutsigelse av sidekjedens geometri

Den nøyaktige montering av aminosyre -sidekjeder er et problem i seg selv innenfor det proteinstrukturprediksjon. Proteinet ryggrad er antatt å være stiv, og de mulige konformasjonene ( rotamerer ) av de enkelte sidekjedene blir endret på en slik måte at den totale energi minimeres. Metoder som spesifikt utfører prediksjon av sidekjeder er for eksempel blindveiseliminering (DEE) og selvkonsistent middelfelt (SCMF). Begge metodene bruker rotamerbiblioteker, der erfaring har vist gunstige konformasjoner med detaljerte data. Disse bibliotekene kan indekseres uavhengig av ryggraden, avhengig av den sekundære strukturen eller avhengig av ryggraden.

Sidekjedeforutsigelsen er spesielt nyttig for å bestemme den hydrofobe proteinkjernen der sidekjedene er tettest pakket; det er mindre egnet for de mer fleksible overflateseksjonene, hvor antallet mulige rotamerer øker betydelig.

Hensyn til kvartærstruktur

I tilfeller der det er kjent fra laboratorieresultater at et protein danner et proteinkompleks med et annet eller det samme , og tertiærstrukturen (e) også er til stede, kan dockingsprogramvare brukes til å finne ut hvordan proteinene i komplekset er orientert til hverandre ( kvartærstruktur ). I tillegg gir de genomiske kontaktkartene data som gjør det mulig å trekke konklusjoner om kontaktposisjoner, da disse er funksjonelt knyttet. Dette gjelder også protein-protein-interaksjoner, hvor man vurderer kontaktposisjoner for genpar av samme art her. De første applikasjonene på toksin-antitoksinsystemer og andre signalnettverk i bakterier har allerede blitt presentert.

Individuelle bevis

  1. heise online: Deepmind: AI skaper gjennombrudd i proteinfolding. Hentet 6. desember 2020 .
  2. RCSB: Redundans i Protein Data Bank
  3. ^ Mount DM (2004). Bioinformatikk: Sekvens og genomanalyse. 2. Cold Spring Harbour Laboratory Press. ISBN 0-87969-712-1 .
  4. Leong Lee, Leopold, JL; Frank, RL: Protein Secondary Structure Prediction Using BLAST og uttømmende RT-RICO, søket etter optimal segmentlengde og terskel . I: IEEE Xplore Digital Library . Mai 2012.
  5. ^ Chen C, Zhou X, Tian Y, Zou X, Cai P: Forutsi protein strukturell klasse med pseudo-aminosyresammensetning og støtte vektor maskin fusjonsnettverk . I: Anal. Biochem. . 357, nr. 1, oktober 2006, s. 116-21. doi : 10.1016 / år fra 2006.07.022 . PMID 16920060 .
  6. Chen C, Tian YX, XY Zou, Cai PX, Mo Man: Bruk av pseudo-aminosyresammensetning og støttevektormaskin for å forutsi proteinstrukturklasse . I: J. Theor. Biol . 243, nr. 3, desember 2006, s. 444-448. doi : 10.1016 / j.jtbi.2006.06.025 . PMID 16908032 .
  7. Lin H, Li Q: Ved hjelp av pseudo aminosyresammensetning for å forutsi protein strukturell klasse: nærmet ved å inkorporere 400 dipeptid-komponenter . I: J Comput Chem . 28, nr. 9, juli 2007, s. 1463-6. doi : 10.1002 / jcc.20554 . PMID 17330882 .
  8. Xiao X, Wang P, Chou KC: Forutsi proteinstrukturelle klasser med pseudo-aminosyresammensetning: en tilnærming som bruker geometriske øyeblikk av cellulært automatbilde . I: J. Theor. Biol . 254, nr. 3, oktober 2008, s. 691-696. doi : 10.1016 / j.jtbi.2008.06.016 . PMID 18634802 .
  9. ^ BG Giraud, John M. Heumann, Alan S. Lapedes: Superadditive korrelasjon . I: Physical Review E . teip 59 , 5 Pt A, mai 1999, s. 4983-4991 , PMID 11969452 .
  10. Rike Ulrike Göbel, Chris Sander, Reinhard Schneider, Alfonso Valencia: Korrelerte mutasjoner og restkontakter i proteiner . I: Proteiner . teip 18 , nei. 4 , april 1994, s. 309-317 , doi : 10.1002 / prot.340180402 .
  11. ^ Itamar Kass, Amnon Horovitz: Kartlegging av veier for allosterisk kommunikasjon i GroEL ved analyse av korrelerte mutasjoner . I: Proteiner . teip 48 , nei. 4 , september 2002, s. 611-617 , doi : 10.1002 / prot.10180 .
  12. Ollen Wollenberg, KR og Atchley, WR (2000): Separasjon av fylogenetiske og funksjonelle assosiasjoner i biologiske sekvenser ved bruk av den parametriske bootstrap. I: Proc. Natl Acad. Sci. USA , 97, 3288-3291, doi: 10.1073 / pnas.97.7.3288 , JSTOR 121884 .
  13. a b c Debora S. Marks, Lucy J. Colwell, Robert Sheridan, Thomas A. Hopf, Andrea Pagnani, Riccardo Zecchina, Chris Sander: Protein 3D Structure Computed from Evolutionary Sequence Variation . I: PLOS ONE . teip 6 , nei. 12. desember 2011, s. e28766 , doi : 10.1371 / journal.pone.0028766 , PMID 22163331 (fri fulltekst).
  14. Alan Lapedes, Bertrand Giraud, Christopher Jarzynski: Bruk av sekvensjusteringer for å forutsi proteinstruktur og stabilitet med høy nøyaktighet . I: arXiv . Juli 2012, arxiv : 1207.2484v1 .
  15. Lukas Burger, Erik van Nimwegen: Disentangling Direct from Indirect Co-Evolution of Residues in Protein Alignments . I: PLOS Computational Biology . teip 6 , nei. 1. januar 2010, s. e1000633 , doi : 10.1371 / journal.pcbi.1000633 , PMID 20052271 (fri fulltekst).
  16. en b F. Morcos, A. Pagnani, B. Lunt, A. Bertolino, DS Marks, C. Sander, R. Zecchina, JN Onuchic, T. Hwa, M. weigt: Direkte kopling analyse av rest koevolusjon fang nativ kontakter på tvers av mange proteinfamilier. PNAS Volum 108, nummer 49, desember 2011, s. E1293-E1301. doi: 10.1073 / pnas.1111471108 . PMID 22106262 . PMC 3241805 (fulltekst).
  17. ^ David T. Jones, Daniel WA Buchan, Domenico Cozzetto, Massimiliano Pontil: PSICOV: presis strukturell kontaktforutsigelse ved hjelp av sparsom invers kovariansestimering på store flersekvensjusteringer . I: Bioinformatikk . teip 28 , nr. 2 , januar 2012, s. 184–190 , doi : 10.1093 / bioinformatics / btr638 (fri fulltekst).
  18. Debora S. Marks, Thomas A. Hopf, Chris Sander: Proteinstrukturforutsigelse fra sekvensvariasjon . I: Nature Biotechnology . teip 30 , nei 11. november 2012, s. 1072-1080 , doi : 10.1038 / nbt.2419 , PMID 23138306 (fri fulltekst).
  19. Thomas A. Hopf, Lucy J. Colwell, Robert Sheridan, Burkhard Rost, Chris Sander, Debora S. Marks: 3D-strukturer av membranproteiner fra genomisk sekvensering . I: Cell . teip 149 , nr. 7. juni 2012, s. 1607–1621 , doi : 10.1016 / j.cell.2012.04.012 , PMC 3641781 (fri fulltekst).
  20. Nugent T., Jones DT (2012): Nøyaktig de novo struktur prediksjon av store transmembrane proteindomener ved bruk av fragmentmontering og korrelert mutasjonsanalyse. PNAS , bind 109, nr. 24, s. E1540-E1547, doi: 10.1073 / pnas.1120036109 .
  21. a b Zhang Y: Fremgang og utfordringer i prediksjon av proteinstruktur . I: Curr Opin Struct Biol . 18, nr. 3, 2008, s. 342-348. doi : 10.1016 / j.sbi.2008.02.004 . PMID 18436442 . PMC 2680823 (gratis fulltekst).
  22. X. Qu, R. Swanson, R. Day, J. Tsai: En guide til malbasert strukturforutsigelse. Nåværende protein- og peptidvitenskap, bind 10, nummer 3, juni 2009, s. 270-285 doi: 10.2174 / 138920309788452182
  23. Zhang Y og Skolnick J: Prognosen for proteinstrukturforutsigelse kan løses ved hjelp av det nåværende PDB-biblioteket . I: Proc Natl Acad Sci USA . 102, nr. 4, 2005, s. 1029-1034. doi : 10.1073 / pnas.0407152101 . PMID 15653774 . PMC 545829 (gratis fulltekst).
  24. A. Kolinski, J. Skolnick: Redusert modeller av proteiner og deres anvendelser Polymer, volum 45, No. 2, januar 2004, sidene 511-524..
  25. JI Sulkowska, F. Morcos, M. Weigt et al.: Genomics-aided structure prediction. PNAS , bind 109, 2012, s. 10340-10345, doi: 10.1073 / pnas.1207864109 .
  26. Dunbrack, RL: rotamerbiblioteker i det 21. århundre . I: Curr. Opin. Struktur. Biol . 12, nr. 4, 2002, s. 431-440. doi : 10.1016 / S0959-440X (02) 00344-5 . PMID 12163064 .
  27. ^ Lovell SC, Word JM, Richardson JS , Richardson DC: Det nest siste rotamerbiblioteket . I: Proteiner: Struc. Func. Genet. . 40, 2000, s. 389-408. doi : 10.1002 / 1097-0134 (20000815) 40: 3 <389 :: AID-PROT50> 3.0.CO; 2-2 .
  28. Richardson rotamer-biblioteker
  29. Shapovalov MV, Dunbrack, RL: A utjevnede ryggrad avhengig rotamer bibliotek for proteiner avledet fra anslagene og regresjoner adaptive kjernen tetthet . I: Structure (Cell Press) . 19, nr. 6, 2011, s. 844-858. doi : 10.1016 / j.str.2011.03.019 . PMID 21645855 . PMC 3118414 (fulltekst).
  30. Voigt CA, Gordon DB, Mayo SL: Handelsnøyaktighet for hastighet: En kvantitativ sammenligning av søkealgoritmer i proteinsekvensdesign . I: J Mol Biol . 299, nr. 3, 2000, s. 789-803. doi : 10.1006 / jmbi.2000.3758 . PMID 10835284 .
  31. Krivov GG, Shapovalov MV, Dunbrack, RL: Forbedret forutsigelse av proteinsidekjede konformasjoner med SCWRL4 . I: Proteiner . 77, nr. 3, 2009, s. 778-795. doi : 10.1002 / prot.22488 . PMID 19603484 . PMC 2885146 (fri fulltekst).
  32. A. Procaccini, B. Lunt, H. Szurmant, T. Hwa, M. weigt: dissekering av spesifisiteten av protein-protein-interaksjon i bakterielle tokomponent-signale: foreldreløse og crosstalks. I: PloS en. Volum 6, nummer 5, 2011, s. E19729. doi: 10.1371 / journal.pone.0019729 . PMID 21573011 . PMC 3090404 (gratis fulltekst).

litteratur

  • GL Butterfoss, B. Yoo et al.: De novo struktur prediksjon og eksperimentell karakterisering av brettede peptoid oligomerer. PNAS , bind 109, 2012, s. 14320-14325, doi: 10.1073 / pnas.1209945109 .

weblenker

Server / programvare for prediksjon