The h-index Metric for GitHub

Študent: Mykhailo Pavlov

Kontakt: pavlov17@uniba.sk

Školiteľ: Mgr. Marek Šuppa

Zadanie

Anotácia

Táto bakalárska práca sa zameriava na adaptáciu metriky h-index pre prostredie GitHub s cieľom kvantifikovať „vplyv" vývojára alebo repozitára na základe popularity a využívania jeho projektov. V práci navrhujem definíciu GitHub h-indexu odvodenú z počtu citácií na GitHube (napr. hviezdičky, forky a ďalšie signály), analyzujem dostupnosť a obmedzenia dát z GitHub API a popisujem postup zberu a spracovania údajov. Súčasťou je implementácia prototypu, ktorý vypočíta metriky pre zvolených používateľov a repozitáre, a porovnanie výsledkov s tradičnými indikátormi aktivity. Výsledkom je návrh metriky a webová prezentácia, ktorá umožňuje prehľadne zobraziť vypočítané hodnoty a diskutovať ich interpretáciu a limity.

Cieľ

Cieľom bakalárskej práce je adaptovať bibliometrickú metriky h-index na prostredie GitHub a navrhnúť spôsob, ako pomocou verejne dostupných údajov spoľahlivo kvantifikovať „vplyv" používateľov a repozitárov. Práca sa zameriava na definovanie GitHub h-indexu na základe merateľných signálov (napr. hviezdičky a forky), na návrh metodiky zberu a spracovania dát s ohľadom na obmedzenia GitHub REST/GraphQL API a na implementáciu prototypu, ktorý tieto metriky vypočíta a umožní ich porovnávanie a interpretáciu.

Vizualizácie

Nasledujúce grafy ilustrujú kľúčové aspekty navrhovanej GitHub h-index metriky:

Graf zobrazujúci vzťah medzi GitHub h-indexom, počtom hviezdičiek a repozitárov
Obr. 1: Korelácia GitHub h-indexu s počtom hviezdičiek a repozitárov
Dôležitosť jednotlivých feature pri výpočte GitHub h-indexu
Obr. 2: Dôležitosť feature pre model predikcie vplyvu
Distribúcia chyby pri predikcii GitHub h-indexu
Obr. 3: Distribúcia rezíduí a presnosť modelu

Prezentácia

Stiahnite si prezentáciu bakalárskej práce v preferovanom formáte:

Zdroje a odkazy

Denník