Was macht Big Data aus?
Volume, Variety, Velocity, Veracity
Was ist der Software Stack für Big Data Management?
Data Analysis
NoSQL, Search, Streaming oder SQL, Scripting
Data Processing Framework
Data Storage
parallel: Resource Management
Was unterscheidet Spark von MapReduce?
Iteratives Vorgehen erleichtert
Invariante Daten (Resilient Distributed Dataset, RDD)
lazy => Optimierungen (Pipelining)
Lineage Graph
Was sind die Vorteile von MapReduce gegenüber SQL?
Flexibilität
Skalierbarkeit
Effizienz
Fehlertoleranz
Welche MapReduce Joins wurden vorgestellt?
Natural Join / Equi-Join
- Repartition Join
- Semi-Join
Theta-Join