Bakalárska práca

Vizuálne spracovanie informácii z verejných registrov

Visual processing of data from public registries

Autor: Miloš Uriga

Názov práce:Vizuálne spracovanie informácii z verejných registrov

Školiteľ: Ing. Viktor Kocur

Konzultant: Mgr. Martin Turček

Anotácia

Informatizácia spoločnosti umožnila rôznym orgánom štátnej správy ako aj iným subjektom zverejňovať veľké množstvo dát podliehajúcich verejnemu záujmu. Takto zverejnené dáta sú často významným podkladom pre investigatívnu žurnalistiku. Mnohé z týchto dát sú však zverejnené vo forme, ktorá neumožňuje efektívnu analýzu väčšieho množstva týchto dát. Nástroje na spracovanie takýchto dát tak môžu byť užitočné pre prácu novinárov ako aj širokej verejnosti.

Cieľ práce

Cieľom práce je navrhnúť, implementovať a otestovať softvér, ktorý bude automaticky vizuálne spracovávať informácie z vybraného verejného registra. Softvér bude navrhnutý a otestovaný v kontexte využitia pri investigatívnej práci novinárov ako aj bežnou verejnosťou. Zadanie práce bude bližšie špecifikované po vzájomnej konzultácii.

Východisková kapitola

Takmer finálna verzia práce

Dataset je dostupný na githube

Zdroje

[1] ADHIKARI, A. et al. Rethinking Complex Neural Network Architectures for Document Classification. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) [online]. Minneapolis, Minnesota: Association for Computational Linguistics, 2019. s. 4046–4051. [cit. 2020-12-02]. Dostupné na internete: https://www.aclweb.org/anthology/N19-1408.

[2] BÉRARD, A. et al. MultiVec: a Multilingual and Multilevel Representation Learning Toolkit for NLP. In The 10th edition of the Language Resources and Evaluation Conference (LREC) [online]. Portoroz, Slovenia, 2016. [cit. 2020-12-02]. Dostupné na internete: https://hal.archives-ouvertes.fr/hal-01335930.

[3] EISENSTEIN, J. Introduction to Natural Language Processing. . [s.l.]: MIT Press, 2019. 535 s. ISBN 978-0-262-04284-0.

[4] HA, H.T. et al. Recognition of OCR Invoice Metadata Block Types. In SOJKA, P. et al.Ed. Text, Speech, and Dialogue . Cham: Springer International Publishing, 2018. s. 304–312. .

[5] JETTAKUL, A. et al. A Comparative Study on Various Deep Learning Techniques for Thai NLP Lexical and Syntactic Tasks on Noisy Data. In 2018 15th International Joint Conference on Computer Science and Software Engineering (JCSSE) . 2018. s. 1–6. .

[6] JURAFSKY, D. - MARTIN, J. Speech and Language Processing, 2nd Edition. . 2nd edition. vyd. Upper Saddle River, N.J: Prentice Hall, 2008. 1032 s. ISBN 978-0-13-187321-6.

[7] NOGUTI, M.Y. et al. Legal Document Classification: An Application to Law Area Prediction of Petitions to Public Prosecution Service. In 2020 International Joint Conference on Neural Networks (IJCNN) . 2020. s. 1–8. .

[8] PATEL, C. et al. Optical Character Recognition by Open source OCR Tool Tesseract: A Case Study. In International Journal of Computer Applications . 2012. Vol. 55, s. 50–56. .

[9] SMITH, R. An Overview of the Tesseract OCR Engine. In Ninth International Conference on Document Analysis and Recognition (ICDAR 2007) . 2007. s. 629–633. .

[10] SOCHER, R. et al. Deep learning for NLP (without magic). In Tutorial Abstracts of ACL 2012 . USA: Association for Computational Linguistics, 2012. s. 5. [cit. 2020-12-02]. .

[11] XING, C. et al. Document classification with distributions of word vectors. In Signal and Information Processing Association Annual Summit and Conference (APSIPA), 2014 Asia-Pacific . 2014. s. 1–5. .

[12] Slovenská národny korpus. In [online]. [cit. 2020-12-02]. Dostupné na internete: https://korpus.sk/.