Universität · Informatik · 6. Semester – Abschluss und Bachelorarbeit
Apache Spark: Verteilte Datenverarbeitung, DataFrames und Machine Learning Pipelines
4 Abschnitte1 Karteikarten-Decks1 Quizze
Einführung in Apache Spark Apache Spark ist ein verteiltes Computing-Framework für die Verarbeitung großer Datenmengen, das 2009 an der UC Berkeley im AMPLab entwickelt und 2014 zum Top-Level-Projekt der Apache Software Foundation wurde. Spark wurde als Nachfolger des MapReduce-Modells konzipiert…
Inhaltsübersicht
- Spark-Architektur: Driver, Executors und Cluster Manager
- RDDs, Lazy Evaluation und Spark SQL mit DataFrames
- Spark MLlib: Feature Transformers, Estimators und Pipelines
- Spark Structured Streaming und Performance-Optimierung

📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.
Jetzt kostenlos lernen →Verwandte Themen
- Einführung in Data Science: Datenlebenszyklus, Prozessmodelle und Werkzeuge
- Datenvorverarbeitung: Bereinigung, Transformation und Feature Engineering
- Big Data Grundlagen: Hadoop-Ökosystem, MapReduce und verteilte Dateisysteme
- Stream Processing und Echtzeit-Datenverarbeitung: Kafka, Flink und Event-Driven Architecture
- Datenvisualisierung und Dashboards: Prinzipien, Werkzeuge und Storytelling mit Daten
Interaktiv lernen mit Karteikarten & Quizzen
Melde dich an und lerne Data Science und Big-Data-Technologien mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.
Kostenlos testen