Predviđanje gena

Predviđanje gena ili nalaženje gena, znano i kao predikcija gena – u računarskoj biologiji – odnosi se na postupak identifikacije regija genomske DNK, koje kodiraju gene. To uključuje protein-kodirajuće gene, kao i RNK gene, ali može uključivati i predviđanje drugih funkcijskih elemenata, kao što su regulatorne regije. Pronalaženje gena jedan je od prvih i najvažnijih koraka u razumijevanju genoma vrste, nakon sekvenciranja.

U svojim najranijim pokušajima, predikcija gena zasnivala se na mukotrpnom eksperimentiranju na živim ćelijama i organizmima. Statistička analiza brzine homologne rekombinacije nekoliko različitih gena, mogla j odrediti njihov redoslijed na određenom hromosomu, a informacije iz mnogih takvih eksperimenata mogle bi se kombinirati za kreiranje genetičke mape koja specificira grubi raspored poznatih gena, u prostornom međuodnosu njihoih lokusa. Danas, sa sveobuhvatnom sekvencom genoma i moćnim računskim resursima na raspolaganju je predikcija gena redefinirana kao uglavnom računarski problem.

Utvrđivanje funkcionalnosti neke sekvence treba razlikovati od utvrđivanja funkcija gena ili njegovog proizvoda. Predviđanje funkcije gena i potvrđivanje tačnosti predviđanja gena i dalje zahtijeva eksperimentiranje in vivo^[1] putem nokaut gena i drugih testova, iako granice bioinformatičkih istraživanja^[2] čine sve više mogućim predviđanje funkcije gena samo na osnovu njegove sekvence.

Predviđanje gena jedan je od ključnih koraka u označavanju genoma, nakon sastavljanja sekvence, filtriranja nekodirajućih područja i maskiranja ponavljanja.^[3]

Predviđanje gena usko je povezano s takozvanim „problemom pretraživanja cilja“, koji istražuje kako proteini koji vežu DNK (faktori transkripcije) pronalaze specifična mjesta vezanja unutar genoma.^[4]^[5] Mnogi aspekti strukturnog predviđanja gena temelje se na trenutnom razumijevanju osnovnih biohemijskih procesa u ćeliji kao što su geni transkripcije, translacije, interakcije protein-protein i procesi regulacije, koji su predmet aktivnih istraživanja u raznim omikama, kao što su transkriptomika, proteomika, metabolomika i općenito strukturna i funkcionalna genomika.

Empirijski metodi

U empirijskim sistemima za pronalaženje gena (sličnosti, homologije ili dokaza), ciljani genom se traži za sekvence koje su slične vanjskim dokazima u obliku poznate izražene oznake sekvence, informacijske RNK (iRNK ), proteinskog proizvoda i homologne ili ortologne sekvence. S obzirom na sekvencu iRNK, trivijalno je izvesti jedinstvenu genomsku sekvencu DNK, iz koje je ona trebala biti transkribirana. Imajući u vidu sekvencu proteina, porodica mogućih kodirajućih sekvenci DNK može se dobiti obrnutim prevođenjem genetičkog koda. Kada se utvrde kandidatske sekvence DNK, relativno je jednostavan algoritamski problem efikasno pretraživati ciljni genom za podudaranja, potpuna ili djelimična, te egzaktna ili netačna. Prema sekvencama, algoritmi lokalnog poravnanja poput BLAST-a, FASTA-a i Smith-Watermanovog algoritma traže regije sličnosti između ciljne sekvence i mogućih kandidatskih podudaranja. Podudaranja mogu biti potpuna ili djelomična, te egzaktna ili netačna. Uspjeh ovog pristupa ograničen je sadržajem i tačnošću baze podataka o sekvencama.

Visok stepen sličnosti sa poznatim iRNK ili proteinskim proizvodom snažan je dokaz da je regija ciljnog genoma protein koji kodira protein. Međutim, za sistemsku primjenu ovog pristupa potrebno je opsežno sekvenciranje iRNK i proteinskih proizvoda. Ne samo da je ovo skupo, već se u složenim organizmima u bilo kojem trenutku izražava samo podskup svih gena u njeihovim genomima, što znači da vanjski dokazi za mnoge gene nisu lahko dostupni u bilo kojoj pojedinačnoj ćelijskoj kulturi. Dakle, za prikupljanje vanjskih dokaza za većinu ili sve gene u složenom organizmu potrebno je proučiti stotine ili hiljade tipova ćelija, što predstavlja dodatne poteškoće. Naprimjer, neki ljudski geni mogu se izraziti samo tokom embrionskog ili fetusnog razvoja, što bi iz etičkih razloga moglo biti teško proučiti.

Uprkos tim poteškoćama, stvorene su opsežne baze podataka o transkriptima i sekvencama ljudskih proteina, kao i za druge važne modelne organizme u biologiji, poput miševa i kvasaca. Naprimjer, baza podataka RefSeq sadrži transkripte i sekvence proteina mnogih različitih vrsta, a sistem Ensembl sveobuhvatno preslikava ove dokaze na ljude i nekoliko drugih genoma. Međutim, vjerovatno je da su ove baze podataka nepotpune i sadrže male, ali značajne količine pogrešnih podataka.

Nove visokopropusne tehnologije transkriptomskih sekvenciranja kao što su RNK-Seq i ChIP-sekvenciranje otvaraju mogućnosti za uključivanje dodatnih vanjskih dokaza u predviđanju i validaciji gena, i omogućavaju strukturno bogatu i tačniju alternativu prethodnog metoda merenja ekspresije gena, kao što su izražena oznaka sekvence ili mikromreža DNK.

Glavni izazovi u predviđanju gena uključuju rješavanje grešaka sirovih podataka u sekvenciranju DNK, ovisnost o kvalitetu sekvencnog slopa, rukovanju kratkim očitavanjima, mutacijskim okvirima, preklapajućim i nepotpunim genima.

Kada se traži homologija genske sekvence, kod prokariota je neophodno uzeti u obzir i horizontalni prijenos gena. Dodatni važan faktor koji se nedovoljno koristi u sadašnjim alatima za otkrivanje gena je postojanje genskih klastera – operona (koji su funkcionalne jedinice DNK koje sadrže klaster gena pod kontrolom jednog promotora) i kod prokariota i kod eukariota. Najpopularniji detektori gena, svaki gen tretiraju izolirano, neovisno o drugima, što biološki nije korektno.

Metodi ab initio

Ab initio predviđanje gena je metod koji je suštinski zasnovana na sadržaju gena i detekciji signala. Zbog inherentnih troškova i poteškoća u pribavljanju vanjskih dokaza za mnoge gene, također je potrebno pribjeći pronalaženju gena ab initio, u kojem samo sekvenca genomske DNK, sistemski se traga za određenim kontrolnim znacima gena koji kodiraju proteine. Ovi se znakovi mogu široko kategorizirati kao signali specifične sekvence koji ukazuju na prisustvo gena u blizini ili kao sadržaja, statistička svojstva same sekvence koja kodira protein. Nalaženja gena ab initio mogao bi se preciznije okarakterizirati kao "predviđanje" gena, jer su obično potrebni vanjski dokazi da bi se definitivno utvrdilo da je navodni gen funkcionalan.

U genomima prokariota, geni imaju specifične i relativno dobro razumljive promotorne sekvence (signale), kao što su Pribnowov boks i faktor transkripcije mjesta vezanja, koje je lahko sistematski prepoznati. Također, sekvenca koja se kodira protein javlja se kao jedan susjedni otvoreni okvir čitanja (ORF), koji je obično dug stotinama ili hiljadama baznih parova. Statistika stop codona je takva da je čak i pronalazak otvorenog okvira čitanje ove dužine prilično informativan znak. (Budući da su tri od 64 moguća kodona u genetičkom kodu stop kodoni, u slučajnoj sekvenci očekivao bi se stop kodon na otprilike svakih 20-25 kodona ili 60-75 baznih parova.) Nadalje, protein- kodirajuća DNK ima određenu periodičnost i druga statistička svojstva, koja je lahko otkriti u sekvenci ove dužine. Ove karakteristike čine pronalaženje prokariotskih gena relativno jednostavnim, a dobro dizajnirani sistemi mogu postići visok nivo preciznosti.

Predikcija gena ab initio kod eukariota, posebno složenih organizama poput ljudi, znatno je izazovnija iz nekoliko razloga. Prvo, promotor i drugi regulatorni signali u ovim genomima složeniji su i manje razumljivi nego u prokariotima, što ih čini težim za pouzdano prepoznavanje. Dva klasična primjera signala koje identificiraju pronalazači eukariotskih gena su CpG otok i mjesta vezanja za poli (A) rep.

Drugo, mehanizmi prerade RNK u eukariotskim ćelijama znače da je određena sekvenca koja kodira protein u genomu podijeljena na nekoliko dijelova (egzona), odvojenih nekodirajućim sekvencama (intronima). (Mjesta prerade su sama po sebi još jedan signal koji su prediktori eukariotskih gena često dizajnirani da identificiraju.) Tipski gen koji kodira protein može se podijeliti na desetak egzona, svaki duži od manje od dvjesto baznih parova, a neki i do dvadeset do trideset. Stoga je u eukariotima mnogo teže otkriti periodičnost i druga poznata svojstva sadržaja DNK koja kodira protein.

Napredni prediktori gena i za prokariotske i za eukariotske genome obično koriste složene modele vjerovatnoće, kao što je skriveni Markovljev model (HMM) za kombiniranje podataka iz različitih mjerenja signala i sadržaja. Sistem GLIMMER je široko korišten i vrlo precizan pretraživač gena za prokariote. GeneMark je još jedan popularni pristup. Poređenja radi, eukariotski prediktori gena ab initio postigli su samo ograničeni uspjeh; zapaženi primjeri su programi GENSCAN i geneid. SNAP pronalazač gena zasnovan je na HMM-u poput Genscana i pokušava biti prilagodljiviji različitim organizmima, rješavajući probleme povezane s korištenjem genskog tragača na sekvencama genoma za koje nije bio uvježban.^[7] Nekoliko nedavnih pristupa, kao što su mSplicer,^[8] CONTRAST,^[9] ili mGene^[10] također koristite mašinsko učenje, tehnike kao što su podržavanje vektorskih mašina za uspešno predviđanje gena. Oni grade diskriminativni model, koristeći skriveni Markovljev mašinski vektor za podršku ili uslovno slučajno polje, da bi naučili preciznu funkciju bodovanja za predviđanje gena.

Metodi ab initio su referentni, a neki se približavaju osjetljivosti od 100% , ali kako se osjetljivost povećava, preciznost pati kao rezultat povećane lažno pozitivne vrijednosti.

Ostali signali

Među izvedenim signalima koji se koriste za predviđanje su statistika koja proizlazi iz statistike podredov, kao št o su k-mer-statistike, izohor ili kompozicijski domen GC- sastav/ujednačenost/ entropija, sekvence i dužina okvira, intron/ egzon/donor/akceptor/promotor i rječnik ribosomnog veznog mjesta, fraktalna dimenzija, Fourierova transformacija pseudo-brojevne DNK, Z-kriva parametri i određene značajke pokretanja.^[11]

Sugerira se da signali koji nisu direktno otkriveni u sekvencama mogu poboljšati predviđanje gena. Naprimjer, zabilježena je uloga sekundarne strukture u identificiranju regulacijskih motiva.^[12] Pored toga, predloženo je da predviđanje sekundarne strukture RNK pomaže u predviđanju mjesta njene prerade.^[13]^[14]^[15]^[16]

Nervne mreže

Vještačke nervne mreže su računarski modeli koji se ističu u mašinskom učenju i prepoznavanju uzoraka. Nervne mreže moraju biti uvježbane u primjerima podataka prije nego što se mogu generalizirati za eksperimentalne podatke i testirati na referentnim podacima. Neurve mreže mogu doći do približnih rješenja problema, koje je teško algoritamski riješiti, pod uvjetom da postoji dovoljno podataka o obuci. Kada se primjenjuju na predviđanje gena, ove mreže mogu se koristiti zajedno s drugim ab initio metodima za predviđanje ili identificiranje bioloških karakteristika, kao što su mjesta prerede RNK.^[17] Jedanpristup^[18] uključuje upotrebu kliznog prozora koji prelazi preko podataka sekvence na preklapajući način. Izlaz na svakoj poziciji je rezultat zasnovan na tome da li mreža misli da prozor sadrži mjesto za preradu donora ili mjesto za prihvatanje akceptora. Veći prozori nude veću preciznost, ali također zahtijevaju više računarske snage. Nerva mreža je primjer signalnog senzora, jer je njen cilj identificiranje funkcijskog mjesta u genomu.

Kombinovani pristupi

Programi poput Maker kombiniraju pristupe ekstrinzičnog i ab initio mapiranja proteina i EST podataka u genomu, za provjeru predviđanja ab initio. Augustus, koji se može koristiti kao dio kanala Maker, također može sadržati savjete u obliku EST poravnanja ili proteinskih profila za povećanje tačnosti predviđanja gena. .

Komparativni pristupi genomici

Kako su sekvencirani čitavi genomi mnogih različitih vrsta, obećavajući pravac u dosadašnjimim istraživanjima u pronalaženju gena je pristup uporedne genomike.

Ovo se temelji na principu da sile prirodne selekcije koja uzrokuje mutiranje gena i drugih funkcijskih elemenata sporije od ostatka genoma, jer će mutacije ovih elemenata vjerovatnije negativno uticati na organizam nego mutacije negdje drugdje. Na taj se način geni se mogu otkriti upoređivanjem genoma srodnih vrsta, kako bi se otkrio ovaj evolucijski pritisak za konzerviranje. Ovaj pristup je prvi put primijenjen na genomima miša i čovjeka, koristeći programe kao što su SLAM, SGP i TWINSCAN / N-SCAN i CONTRAST.^[19]

Višestruki informanti

TWINSCAN je ispitivao samo sintetizibilnost čovjeka i miša kako bi potražio ortologne gene. Programi poput N-SCAN i CONTRAST omogućavali su uključivanje poravnanja iz više organizama, ili u slučaju N-SCAN, jednog alternativnog ciljnog organizma. Upotreba višestrukih informanata može dovesti do značajnih poboljšanja u preciznosti.

CONTRAST se sastoji od dva elementa. Prvi je manji klasifikator, koji identificira mjesta prerade RNK donora i mjesta prihvatanja spojnika, kao i startni i stop kodon. Drugi element uključuje izgradnju cjelovitog modela pomoću mašinskog učenja. Razbijanje problema na dva načina znači da se manji ciljani skupovi podataka mogu koristiti za obuku klasifikatora, a taj klasifikator može raditi samostalno i biti obučen sa manjim prozorima. Puni model može koristiti neovisni klasifikator, a ne mora gubiti računarsko vrijeme ili složenost modela za ponovno klasificiranje granica intron-egzon. U radu u kojem je predstavljen CONTRAST predlaže se da se njihov metod (i TWINSCAN-ova, itd.) klasificiraju kao novi skup gena, koristeći alternativne genome i identificira se kao različit od ab initio, što koristi ciljane 'informatorske' genome.

Uporedni nalaz gena takođe se može koristiti i za projiciranje visokokvalitetnih oznaka iz jednog genoma u drugi. Značajni primjeri uključuju Projector, GeneWise, GeneMapper i GeMoMa. Takve tehnike sada imaju centralnu ulogu u označavanju svih genoma.

Predviđanje pseudogena

Pseudogeni su bliski srodnici gena, koji dijele vrlo visoku homologiju sekvence, ali nisu u mogućnosti da kodiraju isti proteinski proizvod. Iako jednom izbačeni kao nusprodukti sekvenciranje gena, kako se otkrivaju regulacijske uloge, oni postaju prediktivne mete sami po sebi.^[20] Predviđanje pseudogena koristi postojeće sličnosti sekvenci i ab initio metode, uvodeći istovremeno dodatno filtriranje i metode identifikacije pseudogenskih karakteristika.

Metodi sličnosti sekvenci mogu se prilagoditi za predviđanje pseudogena, upotrebom dodatnog filtriranja za pronalaženje kandidata za pseudogene. Ovo bi moglo koristiti onemogućavanju otkrivanja, koje traži nonsens ili okvirne mutacije, koje bi mogle skratiti ili sabiti inače djelotvornu sekvencu kodiranja.^[21] Pored toga, translacija DNK u sekvence proteina može biti efikasnija od same DNK homologije.

Senzori sadržaja mogu se filtrirati, prema razlikama u statističkim svojstvima između pseudogena i gena, poput smanjenog broja CpG ostrva u pseudogenima ili razlikama u G-C sadržaja između pseudogena i njihovih susjeda. Signalni senzori se takođe mogu preuređivati na pseudogene, tražeći odsustvo introna ili repova polidenina.^[22]

Metagenomsko predviđanje gena

Metagenomika je proučavanje genetičkog materijala oporavljenog iz okoline, što rezultira informacijama o sekvencama iz skupa organizama. Predviđanje gena korisno je za uporednu metagenomiku.

Metagenomski alati također spadaju u osnovne kategorije upotrebe bilo pristupa sličnosti sekvence (MEGAN4) ili tehnika ab initio (GLIMMER-MG).

Glimmer-MG ^[23] je proširenje za GLIMMER koje se uglavnom oslanja na ab initio pristup za pronalaženje gena i pomoću skupova treninga iz srodnih organizama. Strategija predviđanja pojačana je klasifikacijom i grupiranjem skupova podataka o genima prije primjene ab initio metoda predviđanja gena. Podaci su grupirani po vrstama. Ovaj metod klasifikacije koristi tehnike iz metagenomske filogenetske klasifikacije. Primjer softvera za ovu svrhu je Phymm, koji koristi interpolirane Markovske modele - i PhymmBL, koji integrira BLAST u rutinu klasifikacije.

MEGAN4^[24] koristi pristup sličnosti sekvenci, koristeći lokalno poravnanje prema bazama podataka poznatih sekvenci, ali također pokušava klasificirati ih, koristeći dodatne informacije o funkcijskim ulogama, biološkim putevima i enzimima. Kao i u predviđanju gena za jedan organizam, pristupi sličnosti sekvenci ograničeni su veličinom baze podataka.

FragGeneScan i MetaGeneAnnotator su popularni programi predviđanja gena, zasnovani na skrivenog Markovski model. Ovi prediktori uzimaju u obzir greške u sekvenciranju, djelimične gene i rade na kratka čitanja.

Još jedan brz i precizan alat za predviđanje gena u metagenomima je MetaGeneMark.^[25] This tool is used by the DOE Joint Genome Institute to annotate IMG/M, the largest metagenome collection to date.

Također pogledajte

Reference

^ Sleator RD (august 2010). "An overview of the current status of eukaryote gene prediction strategies". Gene. 461 (1–2): 1–4. doi:10.1016/j.gene.2010.04.008. PMID 20430068.
^ Ejigu, Girum Fitihamlak; Jung, Jaehee (18. 9. 2020). "Review on the Computational Genome Annotation of Sequences Obtained by Next-Generation Sequencing". Biology. 9 (9): 295. doi:10.3390/biology9090295. ISSN 2079-7737. PMC 7565776. PMID 32962098.
^ Yandell M, Ence D (april 2012). "A beginner's guide to eukaryotic genome annotation". Nature Reviews. Genetics. 13 (5): 329–42. doi:10.1038/nrg3174. PMID 22510764.
^ Redding S, Greene EC (maj 2013). "How do proteins locate specific targets in DNA?". Chemical Physics Letters. 570: 1–11. Bibcode:2013CPL...570....1R. doi:10.1016/j.cplett.2013.03.035. PMC 3810971. PMID 24187380.
^ Sokolov IM, Metzler R, Pant K, Williams MC (august 2005). "Target search of N sliding proteins on a DNA". Biophysical Journal. 89 (2): 895–902. Bibcode:2005BpJ....89..895S. doi:10.1529/biophysj.104.057612. PMC 1366639. PMID 15908574.
^ Madigan, Michael T.; Martinko, John M.; Bender, Kelly S.; Buckley, Daniel H.; Stahl, David (2015). Brock Biology of Microorganisms (14th izd.). Boston: Pearson. ISBN 9780321897398.
^ Korf I (maj 2004). "Gene finding in novel genomes". BMC Bioinformatics. 5: 59. doi:10.1186/1471-2105-5-59. PMC 421630. PMID 15144565.
^ Rätsch G, Sonnenburg S, Srinivasan J, Witte H, Müller KR, Sommer RJ, Schölkopf B (februar 2007). "Improving the Caenorhabditis elegans genome annotation using machine learning". PLOS Computational Biology. 3 (2): e20. Bibcode:2007PLSCB...3...20R. doi:10.1371/journal.pcbi.0030020. PMC 1808025. PMID 17319737.
^ Gross SS, Do CB, Sirota M, Batzoglou S (20. 12. 2007). "CONTRAST: a discriminative, phylogeny-free approach to multiple informant de novo gene prediction". Genome Biology. 8 (12): R269. doi:10.1186/gb-2007-8-12-r269. PMC 2246271. PMID 18096039.
^ Schweikert G, Behr J, Zien A, Zeller G, Ong CS, Sonnenburg S, Rätsch G (juli 2009). "mGene.web: a web service for accurate computational gene finding". Nucleic Acids Research. 37 (Web Server issue): W312–6. doi:10.1093/nar/gkp479. PMC 2703990. PMID 19494180.
^ Saeys Y, Rouzé P, Van de Peer Y (februar 2007). "In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists". Bioinformatics. 23 (4): 414–20. doi:10.1093/bioinformatics/btl639. PMID 17204465.
^ Hiller M, Pudimat R, Busch A, Backofen R (2006). "Using RNA secondary structures to guide sequence motif finding towards single-stranded regions". Nucleic Acids Research. 34 (17): e117. doi:10.1093/nar/gkl544. PMC 1903381. PMID 16987907.
^ Patterson DJ, Yasuhara K, Ruzzo WL (2002). "Pre-mRNA secondary structure prediction aids splice site prediction". Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing: 223–34. PMID 11928478.
^ Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H (februar 2006). "Importance of RNA secondary structure information for yeast donor and acceptor splice site predictions by neural networks". Computational Biology and Chemistry. 30 (1): 50–7. doi:10.1016/j.compbiolchem.2005.10.009. PMID 16386465.
^ Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M (juni 2006). "Impact of RNA structure on the prediction of donor and acceptor splice sites". BMC Bioinformatics. 7: 297. doi:10.1186/1471-2105-7-297. PMC 1526458. PMID 16772025.
^ Rogic, S (2006). The role of pre-mRNA secondary structure in gene splicing in Saccharomyces cerevisiae (PDF) (PhD thesis). University of British Columbia. Arhivirano s originala (PDF), 30. 5. 2009. Pristupljeno 18. 3. 2021.
^ Goel N, Singh S, Aseri TC (juli 2013). "A comparative analysis of soft computing techniques for gene prediction". Analytical Biochemistry. 438 (1): 14–21. doi:10.1016/j.ab.2013.03.015. PMID 23529114.
^ Johansen, ∅Ystein; Ryen, Tom; Eftes∅l, Trygve; Kjosmoen, Thomas; Ruoff, Peter (2009). Splice Site Prediction Using Artificial Neural Networks. Computational Intelligence Methods for Bioinformatics and Biostatistics. Lec Not Comp Sci. 5488. str. 102–113. doi:10.1007/978-3-642-02504-4_9. ISBN 978-3-642-02503-7.
^ Gross SS, Do CB, Sirota M, Batzoglou S (2007). "CONTRAST: a discriminative, phylogeny-free approach to multiple informant de novo gene prediction". Genome Biology (jezik: engleski). 8 (12): R269. doi:10.1186/gb-2007-8-12-r269. PMC 2246271. PMID 18096039.
^ Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (august 2010). "Annotating non-coding regions of the genome". Nature Reviews. Genetics. 11 (8): 559–71. doi:10.1038/nrg2814. PMID 20628352.
^ Svensson O, Arvestad L, Lagergren J (maj 2006). "Genome-wide survey for biologically functional pseudogenes". PLOS Computational Biology. 2 (5): e46. Bibcode:2006PLSCB...2...46S. doi:10.1371/journal.pcbi.0020046. PMC 1456316. PMID 16680195.
^ Zhang Z, Gerstein M (august 2004). "Large-scale analysis of pseudogenes in the human genome". Current Opinion in Genetics & Development. 14 (4): 328–35. doi:10.1016/j.gde.2004.06.003. PMID 15261647.
^ Kelley DR, Liu B, Delcher AL, Pop M, Salzberg SL (januar 2012). "Gene prediction with Glimmer for metagenomic sequences augmented by classification and clustering". Nucleic Acids Research. 40 (1): e9. doi:10.1093/nar/gkr1067. PMC 3245904. PMID 22102569.
^ Huson DH, Mitra S, Ruscheweyh HJ, Weber N, Schuster SC (septembar 2011). "Integrative analysis of environmental sequences using MEGAN4". Genome Research. 21 (9): 1552–60. doi:10.1101/gr.120618.111. PMC 3166839. PMID 21690186.
^ Zhu W, Lomsadze A, Borodovsky M (juli 2010). "Ab initio gene identification in metagenomic sequences". Nucleic Acids Research. 38 (12): e132. doi:10.1093/nar/gkq275. PMC 2896542. PMID 20403810.

Vanjski linkovi

Augustus
FGENESH Arhivirano 4. 1. 2013. na: Archive.today
GeMoMa - Homology-based gene prediction based on amino acid and intron position conservation as well as RNA-Seq data
geneid, SGP2
Glimmer Arhivirano 26. 8. 2011. na Wayback Machine, GlimmerHMM Arhivirano 18. 8. 2011. na Wayback Machine
GenomeThreader
ChemGenome
GeneMark
Gismo
mGene
StarORF — A multi-platform and web tool for predicting ORFs and obtaining reverse complement sequence
Maker - A portable and easily configurable genome annotation pipeline

[Sleator2010-1] Sleator RD (august 2010). "An overview of the current status of eukaryote gene prediction strategies". Gene. 461 (1–2): 1–4. doi:10.1016/j.gene.2010.04.008. PMID 20430068.

[2] Ejigu, Girum Fitihamlak; Jung, Jaehee (18. 9. 2020). "Review on the Computational Genome Annotation of Sequences Obtained by Next-Generation Sequencing". Biology. 9 (9): 295. doi:10.3390/biology9090295. ISSN 2079-7737. PMC 7565776. PMID 32962098.

[Yandell2012-3] Yandell M, Ence D (april 2012). "A beginner's guide to eukaryotic genome annotation". Nature Reviews. Genetics. 13 (5): 329–42. doi:10.1038/nrg3174. PMID 22510764.

[redding2013-4] Redding S, Greene EC (maj 2013). "How do proteins locate specific targets in DNA?". Chemical Physics Letters. 570: 1–11. Bibcode:2013CPL...570....1R. doi:10.1016/j.cplett.2013.03.035. PMC 3810971. PMID 24187380.

[sokolov2005-5] Sokolov IM, Metzler R, Pant K, Williams MC (august 2005). "Target search of N sliding proteins on a DNA". Biophysical Journal. 89 (2): 895–902. Bibcode:2005BpJ....89..895S. doi:10.1529/biophysj.104.057612. PMC 1366639. PMID 15908574.

[6] Madigan, Michael T.; Martinko, John M.; Bender, Kelly S.; Buckley, Daniel H.; Stahl, David (2015). Brock Biology of Microorganisms (14th izd.). Boston: Pearson. ISBN 9780321897398.

[7] Korf I (maj 2004). "Gene finding in novel genomes". BMC Bioinformatics. 5: 59. doi:10.1186/1471-2105-5-59. PMC 421630. PMID 15144565.

[8] Rätsch G, Sonnenburg S, Srinivasan J, Witte H, Müller KR, Sommer RJ, Schölkopf B (februar 2007). "Improving the Caenorhabditis elegans genome annotation using machine learning". PLOS Computational Biology. 3 (2): e20. Bibcode:2007PLSCB...3...20R. doi:10.1371/journal.pcbi.0030020. PMC 1808025. PMID 17319737.

[9] Gross SS, Do CB, Sirota M, Batzoglou S (20. 12. 2007). "CONTRAST: a discriminative, phylogeny-free approach to multiple informant de novo gene prediction". Genome Biology. 8 (12): R269. doi:10.1186/gb-2007-8-12-r269. PMC 2246271. PMID 18096039.

[10] Schweikert G, Behr J, Zien A, Zeller G, Ong CS, Sonnenburg S, Rätsch G (juli 2009). "mGene.web: a web service for accurate computational gene finding". Nucleic Acids Research. 37 (Web Server issue): W312–6. doi:10.1093/nar/gkp479. PMC 2703990. PMID 19494180.

[Saeys2007-11] Saeys Y, Rouzé P, Van de Peer Y (februar 2007). "In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists". Bioinformatics. 23 (4): 414–20. doi:10.1093/bioinformatics/btl639. PMID 17204465.

[Hiller2006-12] Hiller M, Pudimat R, Busch A, Backofen R (2006). "Using RNA secondary structures to guide sequence motif finding towards single-stranded regions". Nucleic Acids Research. 34 (17): e117. doi:10.1093/nar/gkl544. PMC 1903381. PMID 16987907.

[Patterson2002-13] Patterson DJ, Yasuhara K, Ruzzo WL (2002). "Pre-mRNA secondary structure prediction aids splice site prediction". Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing: 223–34. PMID 11928478.

[Marashi2006a-14] Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H (februar 2006). "Importance of RNA secondary structure information for yeast donor and acceptor splice site predictions by neural networks". Computational Biology and Chemistry. 30 (1): 50–7. doi:10.1016/j.compbiolchem.2005.10.009. PMID 16386465.

[Marashi2006b-15] Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M (juni 2006). "Impact of RNA structure on the prediction of donor and acceptor splice sites". BMC Bioinformatics. 7: 297. doi:10.1186/1471-2105-7-297. PMC 1526458. PMID 16772025.

[Rogic2006-16] Rogic, S (2006). The role of pre-mRNA secondary structure in gene splicing in Saccharomyces cerevisiae (PDF) (PhD thesis). University of British Columbia. Arhivirano s originala (PDF), 30. 5. 2009. Pristupljeno 18. 3. 2021.

[Goel2013-17] Goel N, Singh S, Aseri TC (juli 2013). "A comparative analysis of soft computing techniques for gene prediction". Analytical Biochemistry. 438 (1): 14–21. doi:10.1016/j.ab.2013.03.015. PMID 23529114.

[Johansen2009-18] Johansen, ∅Ystein; Ryen, Tom; Eftes∅l, Trygve; Kjosmoen, Thomas; Ruoff, Peter (2009). Splice Site Prediction Using Artificial Neural Networks. Computational Intelligence Methods for Bioinformatics and Biostatistics. Lec Not Comp Sci. 5488. str. 102–113. doi:10.1007/978-3-642-02504-4_9. ISBN 978-3-642-02503-7.

[:0-19] Gross SS, Do CB, Sirota M, Batzoglou S (2007). "CONTRAST: a discriminative, phylogeny-free approach to multiple informant de novo gene prediction". Genome Biology (jezik: engleski). 8 (12): R269. doi:10.1186/gb-2007-8-12-r269. PMC 2246271. PMID 18096039.

[Alexander2010-20] Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (august 2010). "Annotating non-coding regions of the genome". Nature Reviews. Genetics. 11 (8): 559–71. doi:10.1038/nrg2814. PMID 20628352.

[Svensson2006-21] Svensson O, Arvestad L, Lagergren J (maj 2006). "Genome-wide survey for biologically functional pseudogenes". PLOS Computational Biology. 2 (5): e46. Bibcode:2006PLSCB...2...46S. doi:10.1371/journal.pcbi.0020046. PMC 1456316. PMID 16680195.

[Zhang2004-22] Zhang Z, Gerstein M (august 2004). "Large-scale analysis of pseudogenes in the human genome". Current Opinion in Genetics & Development. 14 (4): 328–35. doi:10.1016/j.gde.2004.06.003. PMID 15261647.

[Kelley2012-23] Kelley DR, Liu B, Delcher AL, Pop M, Salzberg SL (januar 2012). "Gene prediction with Glimmer for metagenomic sequences augmented by classification and clustering". Nucleic Acids Research. 40 (1): e9. doi:10.1093/nar/gkr1067. PMC 3245904. PMID 22102569.

[Huson2011-24] Huson DH, Mitra S, Ruscheweyh HJ, Weber N, Schuster SC (septembar 2011). "Integrative analysis of environmental sequences using MEGAN4". Genome Research. 21 (9): 1552–60. doi:10.1101/gr.120618.111. PMC 3166839. PMID 21690186.

[Zhu2010-25] Zhu W, Lomsadze A, Borodovsky M (juli 2010). "Ab initio gene identification in metagenomic sequences". Nucleic Acids Research. 38 (12): e132. doi:10.1093/nar/gkq275. PMC 2896542. PMID 20403810.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

p r u Omike
Genomika	Spoznajna genomika Računarska genomika Komparativna genomika Funkcionalna genomika Projekt genoma Projekt ljudskog genoma Metagenomika Projekt ljudskog mikrobioma Pangenomika Personalna genomika Populacijska genomika Socijalna genomika Strukturna genomika
Bioinformatika	Biočip Heminformatika Hemogenomika Konektomika Projekt ljudskog konektoma Epigenomika Projekt ljudskog epigenoma Glikomika Imunomika Lipidomika Metabolomika Mikrobiomika Nutrigenomika Paleopoliploidja Farmakogenetika Farmakogenomika Sistemska biologija Tokikogenomika Transkriptomika
Strukturna biologija	Proteomika Projekt ljudskog proteoma Pozivnomapna proteomika Strukturno bazirani dizajn lijekova Ekspresijska proteomika
Istraživački alati	2-D elektroforeza Masena spektrometrija Elektrosprejna ionizacija Matriksno-potpomognuta laserska desorpcija ionizacije Matriksno-potpomognuta laserska desorpcija ionizacije - vrijeme leta masenog spektrometra Mikrofluidno-zasnovani alati Oznake izotopnog afiniteta Snimanje hromosomske konformacije
Organizacije	Japanska DNK-baza podataka (JP) Evropska laboratorija za molekularnu biologiju (EU) Nacionalni instituti za zdravlje (SAD) Institut Wellcomes Sanger (UK)
podaci Kategorija