Informatika 4

Kód předmětu: 155YIN4
Garant předmětu: Ing. Jan Pytel, Ph.D.
Zakončení předmětu: Z,ZK
Počet kreditů: 4 kred.
Rozsah výuky: 2+2
Web předmětu: https://geo.fsv.cvut.cz/gwiki/155YIN4_Informatika_4

Anotace(semestr )
V rámci předmětu jsou studenti seznámeni s technikami zpracování velkého množství dat. Nejprve se naučí jak předzpracovávat data v příkazovém řádku před importem do DB. Důraz je kladen na relační databáze a témata, která nebyla zmíněna během předmětu Informatika 2: indexy, exekuční plány, partitioning. Poté studenti dostanou základní informace o NoSQL databázích, ElasticSearch, R a cloudu.
Obsah 
1. BigData - vývoj a koncept
2. Preprocesing dat v příkazovém řádku
3. Preprocesing dat v příkazovém řádku 2
4. Relační databáze - indexy, partitioning, ladění výkonu ACID
5. NoSQL databáze - koncept, odlišný přitup oproti relačním databázím
6. NoSQL databáze - Apache Cassandra
7. NoSQL databáze - grafové databáze (Neo4j), dokumentově orientované databáze
8. Základy cloudu
9. Instalace NoSQL databáze do cloudu - praktická ukázka redundance, CAP Theorem
10. Apache ekosystém I: Hadoop, HBase, Sparc, Pig
11. Fultextový vyhledávač ElasticSearch
12. Statistický jazyk R - využití při zpracování velkého množství dat
13. Statistický jazyk R - spojení s Apache Spark, praktické ukázky
Literatura 
Studijní pomůcky:
[1]  Apache Cassandra/Hadoop/HBase/Sparc/Pig - http://www.apache.org/
[2]  Neo4j - https://neo4j.com/
[3]  ElasticSearch - https://www.elastic.co/
[4]  Language R - https://www.r-project.org
Návaznosti 
--
Studijní plány 
Předmět je zařazen do následujících studijních plánů:

- studijní plán Geodézie a kartografie, specializace Geomatika (NG2023GMP), skupina Geodézie a kartografie, spec. Geomatika, PV předměty, 2. semestr (NH20180002_1), dop. semestr 2 (přechod na nový studijní plán, platí pro nástup 2021 a 2022 )