Universität · Informatik · 6. Semester – Abschluss und Bachelorarbeit

Apache Spark: Verteilte Datenverarbeitung, DataFrames und Machine Learning Pipelines

4 Abschnitte1 Karteikarten-Decks1 Quizze

Einführung in Apache Spark Apache Spark ist ein verteiltes Computing-Framework für die Verarbeitung großer Datenmengen, das 2009 an der UC Berkeley im AMPLab entwickelt und 2014 zum Top-Level-Projekt der Apache Software Foundation wurde. Spark wurde als Nachfolger des MapReduce-Modells konzipiert

Inhaltsübersicht

  • Spark-Architektur: Driver, Executors und Cluster Manager
  • RDDs, Lazy Evaluation und Spark SQL mit DataFrames
  • Spark MLlib: Feature Transformers, Estimators und Pipelines
  • Spark Structured Streaming und Performance-Optimierung
brücke, seebrücke, zur einführung, manhattan brücke, architektur, nyc, usa, brücke, brücke, brücke, brücke, brücke, architektur, usa
Pixabay – Pixabay License

📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.

Jetzt kostenlos lernen →

Verwandte Themen

Interaktiv lernen mit Karteikarten & Quizzen

Melde dich an und lerne Data Science und Big-Data-Technologien mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.

Kostenlos testen