Nástroj na hodnotenie kvality genomickej atomizácie

Informácie o projekte

Názov projektu:Nástroj na hodnotenie kvality genomickej atomizácie
Študent:Matej Krivošík
Email študenta:krivosik7@uniba.sk
Školiteľ:doc. Mgr. Tomáš Vinař, PhD.
Email školiteľa:tomas.vinar@fmph.uniba.sk
GitHub:atomization_scorer
Detailný popis nástroja:description

Popis projektu

Tvorba analytického nástroja určeného na hodnotenie kvality genomickej atomizácie, teda rozkladu genómových sekvencií na menšie homogénne úseky - atómové segmenty - na základe lokálnej podobnosti. Atomizácia, realizovaná pomocou algoritmu IMP (implementovaného v nástroji GEESE), umožňuje identifikovať potenciálne homologické regióny medzi sekvenciami. Úlohou nástroja bude overiť, ako presne a konzistentne tento proces prebehol a poskytnúť kvantitatívne aj vizuálne ukazovatele kvality.

Zimný Semester

report: report_zima

V rámci projektu som sa oboznámil s problematikou genomickej atomizácie a naučil sa pracovať s rôznymi bioinformatickými nástrojmi, ako sú Mash, Minimap2, GEESE, LAST, a s bioinformatickými formátmi FASTA a GEESE. Získal som skúsenosti aj s knižnicou pandas pre spracovanie a analýzu dát.

Naimplementoval som základný python balíček, ktorý poskytuje kostru funkcionality na výpočet základných metrík kvality atomizácie, a základný príkazový riadok pre spustenie nástroja z terminálu.

Pre overenie funkčnosti som napísal základné testy (pytest framework). Testy zatiaľ pokrývajú základné scenáre a v letnom semestri ich plánujem rozšíriť.

Letný Semester

report: report_leto

V letnom semestri som pokračoval v rozvoji môjho projektu, ktorý som dokončil. Upravil som väčšinu modulov a testov.

Implementoval som diagnostické moduly pre analýzu a vizualizáciu prekryvov vznikajúcich pri tvorbe true (gold standard) atomizácie pomocou nástroja Dotter. Taktiež som prepracoval celý vizualizačný modul tak, aby generoval interaktívnu HTML stránku namiesto statických obrázkov. Nakoniec som všetky moduly prepojil cez CLI.

Pre overenie funkčnosti som napísal ďalšie testy (pytest framework). Hlavný bol test na umelú degradáciu atomizácie, ktorý overuje, že so zhoršenou atomizáciou sa zhoršuje aj výsledné skóre vytvorené softvérom.