Universität · Informatik · 6. Semester – Abschluss und Bachelorarbeit

Apache Spark: Verteilte Datenverarbeitung, DataFrames und Machine Learning Pipelines

4 Abschnitte1 Karteikarten-Decks1 Quizze

Einführung in Apache Spark Apache Spark ist ein verteiltes Computing-Framework für die Verarbeitung großer Datenmengen, das 2009 an der UC Berkeley im AMPLab entwickelt und 2014 zum Top-Level-Projekt der Apache Software Foundation wurde. Spark wurde als Nachfolger des MapReduce-Modells konzipiert…

Inhaltsübersicht

Spark-Architektur: Driver, Executors und Cluster Manager
RDDs, Lazy Evaluation und Spark SQL mit DataFrames
Spark MLlib: Feature Transformers, Estimators und Pipelines
Spark Structured Streaming und Performance-Optimierung

brücke, seebrücke, zur einführung, manhattan brücke, architektur, nyc, usa, brücke, brücke, brücke, brücke, brücke, architektur, usa — Pixabay – Pixabay License

📚 Vollständiges Lernmaterial mit 4 Abschnitten, Karteikarten und Quizzen verfügbar nach Anmeldung.

Jetzt kostenlos lernen →

Interaktiv lernen mit Karteikarten & Quizzen

Melde dich an und lerne Data Science und Big-Data-Technologien mit intelligenten Wiederholungen, Quizzen und KI-Lernhilfen. 7 Tage kostenlos.

Kostenlos testen

Inhaltsübersicht

Verwandte Themen

Interaktiv lernen mit Karteikarten & Quizzen