ROČNÍKOVÝ PROJEKT


Študent

Meno: Zuzana Skubeňová

Email: skubenova5[at]uniba.sk

Školiteľ

Meno: Mgr. Adrián Goga

Email: adrian.goga[at]uniba.sk


Téma projektu: Prefix-free parsing with improved trigger strings filtering

Popis
Prefix-free parsing (PFP, Boucher et al., 2019) je metóda reprezentácie textu, pomocou ktorej je možné skonštruovať state-of-the-art textové indexy (r-index, Gagie et al., 2018) použitím pomerne malej pracovnej pamäte pre obrovské a repetitívne dáta (napr. stovky GB až TB DNA sekvencii), alebo obohatením o dodatočne malé dátové štruktúry môže slúžiť ako komprimovaná forma sufixových stromov (Boucher et al., 2021). Cieľom tohto projektu je preskúmanie heuristickej metódy (Oliva et al., 2022), ktorej účelom je získanie PFP reprezentácie s ešte väčšou kompresiou.

Ciele

Zimný semester:

  1. Naštudovať literatúru a porozumieť problematike.
  2. Preskúmať účelovú funkciu z článku CSTs for Terabyte-Sized Data (Oliva et al., 2021).
  3. Navrhnúť zlepšenie účelovej funkcie z predošlého bodu.

Letný semester:

  1. Implementovať navrhnutú metódu zo zimného semestra.
  2. Experimentálne vyhodnotiť novú metódu na repetitívnych dátach rôznych veľkostí.
  3. Vizualizovať výkonnosť novo navrhnutej metódy.

  • Zimný semester - report
  • Letný semester - report
  • Zdrojový kód - GitHub