Big Data at Hochschule Stralsund | Flashcards & Summaries

Lernmaterialien für Big Data an der Hochschule Stralsund

Greife auf kostenlose Karteikarten, Zusammenfassungen, Übungsaufgaben und Altklausuren für deinen Big Data Kurs an der Hochschule Stralsund zu.

TESTE DEIN WISSEN
Parallelisierbar bedeutet?
Lösung anzeigen
TESTE DEIN WISSEN
Eine Operation kann auf mehreren DataNodes gleichzeitig ausgeführt werden.
Lösung ausblenden
TESTE DEIN WISSEN
Was ist GraphX?
Lösung anzeigen
TESTE DEIN WISSEN
Framework für Berechnungen auf Graphen
Lösung ausblenden
TESTE DEIN WISSEN
Speicherung bei Big Data
Lösung anzeigen
TESTE DEIN WISSEN
auf verteiltem Dateisystem, z.B. HDFS (Hadoop Distributed File System)
Lösung ausblenden
TESTE DEIN WISSEN
Arten von Knoten
Lösung anzeigen
TESTE DEIN WISSEN
2 Arten von Knoten:
  • ein NameNode
  • mehrere Datanode
Lösung ausblenden
TESTE DEIN WISSEN
Was beinhaltet Spark Core?
Lösung anzeigen
TESTE DEIN WISSEN
Kern bietet mit RDD (Resilient Distributed Dataset) Datenstruktur auf der parallel Operationen auf Workern ausgeführt werden können.
Auswahl an Operationen:
  •  map
  • reduce
  • filter
  • join
  • group
Lösung ausblenden
TESTE DEIN WISSEN
Was ermöglicht Spark SQL?
Lösung anzeigen
TESTE DEIN WISSEN
auf strukturierten Daten SQL-Anfragen ausführen.
Lösung ausblenden
TESTE DEIN WISSEN
Was ist MLlib?
Lösung anzeigen
TESTE DEIN WISSEN
Bibliothek für „machine learning“ Algorithmen
Lösung ausblenden
TESTE DEIN WISSEN
Was ermöglicht Spark Streaming?
Lösung anzeigen
TESTE DEIN WISSEN
Verarbeitung von kontinuierlichen Datenströmen. -> z.B. Twitter-API: Live Hashtags
Lösung ausblenden
TESTE DEIN WISSEN
Was ist ein RDD?
Lösung anzeigen
TESTE DEIN WISSEN
Resilient Distributed Dataset
  • ein über mehrere Knoten eines Clusters verteilter Datensatz
  • kann aus Datei in HDFS erzeugt werden
  • Fehlertolerant gegenüber Knotenausfall

wichtigste RDD-Operationen:
  • map
  • mapToPair
  • flatMap
  • reduce
  • reduceByKey
  • join
Lösung ausblenden
TESTE DEIN WISSEN
Architektur aus Vorlesung
Lösung anzeigen
TESTE DEIN WISSEN
3 Maschinen (1 Master-Knoten und 2 Slave-Knoten)
-> Master-Knoten: 
  • NameNode (HDFS Metadaten)
  • Master (Spark Cluster Manager)
-> Slave-Knoten:
  • DataNode (HDFS Datenblöcke)
  • Worker (Spark)

DataNode und Worker auf gleicher Maschine -> Bei Ausführung der Tasks: Zugriff auf lokal gespeicherte Daten -> Reduktion der übertragenen Datenmenge übers Netzwerk & höhere Verarbeitungsgeschwindigkeit

Ist Beispiel für: Programm wird zu Daten geschoben -> Bei meisten BigData Anwendungen der Fall, da Datenmenge vielfach größer als Programm
Lösung ausblenden
TESTE DEIN WISSEN
Spark Streaming
Lösung anzeigen
TESTE DEIN WISSEN
Datenmenge bei BigData im TeraByte bzw. PetaByte Bereich.

Datenströme werden hier nahezu in Echtzeit verarbeitet.
Z.b Verkaufszahlen eines Internestshops
Lösung ausblenden
TESTE DEIN WISSEN
Operationen auf DStreams
Lösung anzeigen
TESTE DEIN WISSEN
-> Jede Operation wird in RDDs in Stream umgesetzt.
-> Bsp. Dstream lines enthält Textzeilen dann flatMap() zu DStream words möglich.
Lösung ausblenden
  • 3109 Karteikarten
  • 187 Studierende
  • 17 Lernmaterialien

Beispielhafte Karteikarten für deinen Big Data Kurs an der Hochschule Stralsund - von Kommilitonen auf StudySmarter erstellt!

Q:
Parallelisierbar bedeutet?
A:
Eine Operation kann auf mehreren DataNodes gleichzeitig ausgeführt werden.
Q:
Was ist GraphX?
A:
Framework für Berechnungen auf Graphen
Q:
Speicherung bei Big Data
A:
auf verteiltem Dateisystem, z.B. HDFS (Hadoop Distributed File System)
Q:
Arten von Knoten
A:
2 Arten von Knoten:
  • ein NameNode
  • mehrere Datanode
Q:
Was beinhaltet Spark Core?
A:
Kern bietet mit RDD (Resilient Distributed Dataset) Datenstruktur auf der parallel Operationen auf Workern ausgeführt werden können.
Auswahl an Operationen:
  •  map
  • reduce
  • filter
  • join
  • group
Mehr Karteikarten anzeigen
Q:
Was ermöglicht Spark SQL?
A:
auf strukturierten Daten SQL-Anfragen ausführen.
Q:
Was ist MLlib?
A:
Bibliothek für „machine learning“ Algorithmen
Q:
Was ermöglicht Spark Streaming?
A:
Verarbeitung von kontinuierlichen Datenströmen. -> z.B. Twitter-API: Live Hashtags
Q:
Was ist ein RDD?
A:
Resilient Distributed Dataset
  • ein über mehrere Knoten eines Clusters verteilter Datensatz
  • kann aus Datei in HDFS erzeugt werden
  • Fehlertolerant gegenüber Knotenausfall

wichtigste RDD-Operationen:
  • map
  • mapToPair
  • flatMap
  • reduce
  • reduceByKey
  • join
Q:
Architektur aus Vorlesung
A:
3 Maschinen (1 Master-Knoten und 2 Slave-Knoten)
-> Master-Knoten: 
  • NameNode (HDFS Metadaten)
  • Master (Spark Cluster Manager)
-> Slave-Knoten:
  • DataNode (HDFS Datenblöcke)
  • Worker (Spark)

DataNode und Worker auf gleicher Maschine -> Bei Ausführung der Tasks: Zugriff auf lokal gespeicherte Daten -> Reduktion der übertragenen Datenmenge übers Netzwerk & höhere Verarbeitungsgeschwindigkeit

Ist Beispiel für: Programm wird zu Daten geschoben -> Bei meisten BigData Anwendungen der Fall, da Datenmenge vielfach größer als Programm
Q:
Spark Streaming
A:
Datenmenge bei BigData im TeraByte bzw. PetaByte Bereich.

Datenströme werden hier nahezu in Echtzeit verarbeitet.
Z.b Verkaufszahlen eines Internestshops
Q:
Operationen auf DStreams
A:
-> Jede Operation wird in RDDs in Stream umgesetzt.
-> Bsp. Dstream lines enthält Textzeilen dann flatMap() zu DStream words möglich.
Big Data

Erstelle und finde Lernmaterialien auf StudySmarter.

Greife kostenlos auf tausende geteilte Karteikarten, Zusammenfassungen, Altklausuren und mehr zu.

Jetzt loslegen

Das sind die beliebtesten Big Data Kurse im gesamten StudySmarter Universum

Big Data & Data Science

FOM Hochschule für Oekonomie & Management

Zum Kurs

Die all-in-one Lernapp für Studierende

Greife auf Millionen geteilter Lernmaterialien der StudySmarter Community zu
Kostenlos anmelden Big Data
Erstelle Karteikarten und Zusammenfassungen mit den StudySmarter Tools
Kostenlos loslegen Big Data