Select your language

Suggested languages for you:
Log In App nutzen

Lernmaterialien für Data Science an der Universität Potsdam

Greife auf kostenlose Karteikarten, Zusammenfassungen, Übungsaufgaben und Altklausuren für deinen Data Science Kurs an der Universität Potsdam zu.

TESTE DEIN WISSEN

Warum sind Daten schwer zu beschaffen?

Lösung anzeigen
TESTE DEIN WISSEN
  • nicht zugänglich
  • teuer
  • nicht die "richtigen" Daten
  • Datenschutzgründe
Lösung ausblenden
TESTE DEIN WISSEN

Häufig haben wir ein Datenset, aber es fehlen Informationen. Was tun?

Lösung anzeigen
TESTE DEIN WISSEN

Wir lassen Menschen, die fehlenden Informationen hinzufügen. Zum Beispiel durch Annotieren von Bildern.

Je nach Thematik (Problemstellung/Datensatz) können wir Experten oder Nicht-Experten engagieren.

Lösung ausblenden
TESTE DEIN WISSEN

What is the main problem when implementing parallel computing?

Lösung anzeigen
TESTE DEIN WISSEN

- needs mechanisms to avoid reading/writing at the same time

- difficult to design bug--free programs


=> the program needs to be adapted for parallel computing

Lösung ausblenden
TESTE DEIN WISSEN

Wofür steht Data Wrangling?

Lösung anzeigen
TESTE DEIN WISSEN

Rohdaten vorverarbeiten, in nutzbare Form bringen

Lösung ausblenden
TESTE DEIN WISSEN

Was ist Web Scraping?

Lösung anzeigen
TESTE DEIN WISSEN

the method where data is collected from desired web pages and is also known as data collection and data extraction


https://github.com/Macuyiko/webscrapingfordatascience
https://realpython.com/python-web-scraping-practical-introduction/

Lösung ausblenden
TESTE DEIN WISSEN

Was sollte man beim Lesen von csv/Log Dateien beachten?

Lösung anzeigen
TESTE DEIN WISSEN

Da sie sehr groß sein können, sollten sie zeilenweise gelesen werden. Ansonsten dauert es unter Umständen sehr lange (Java schneller als Python)

Lösung ausblenden
TESTE DEIN WISSEN

Was ist das am weitesten verbreitete Dateiformat für datasets?

Lösung anzeigen
TESTE DEIN WISSEN

csv files. Sie stellen im Prinzip Datenbanktabellen dar.


(Ganz nebenbei:  Log Dateien haben ein sehr ähnliches Format)

Lösung ausblenden
TESTE DEIN WISSEN

Was beschreibt ein HTML Dokument?

Lösung anzeigen
TESTE DEIN WISSEN

- HTML-Dokumente definieren die Struktur von Webseiten

- Struktur als DOM

- in der Praxis ab und zu unsauber (Problem beim Web Mining; Tools zur Beseitigung von Unsauberheiten)

Lösung ausblenden
TESTE DEIN WISSEN

Was bedeutet "Parsing"?

Lösung anzeigen
TESTE DEIN WISSEN

Dealing with the structure of the data

zum Beispiel: um csv files zu lesen, muss der Computer die Struktur verstehen (Spalten, durch komma getrennt)


Meist besser library functions zu verwenden um Spezialfälle zu umgehen (z.B. Komma in einem Element)

Lösung ausblenden
TESTE DEIN WISSEN

Was ist der Unterschied zwischen Data Mining und Web Mining?

Lösung anzeigen
TESTE DEIN WISSEN

Data mining: It is a concept of identifying a significant pattern from the data that gives a better outcome. Identifying patterns from where? From the data that are generated from the systems.

(teil)automatischen Extraktion von Informationen aus dem Internet aus HTML


Web mining: The process of performing Data mining on the web is called Web mining. Extracting the web documents and discovering the patterns from it.

Lösung ausblenden
TESTE DEIN WISSEN

Was sind Eigenschaften einer pdf Datei?

Lösung anzeigen
TESTE DEIN WISSEN

- rein visuelles Format

- Spaltenstruktur nicht definiert

- Tools (Document Importing), die pdf interpretieren und Struktur erkennen

Lösung ausblenden
TESTE DEIN WISSEN

JSON: Was ist das? Wofür wird es verwendet?

Lösung anzeigen
TESTE DEIN WISSEN
  • strukturierte Datenrepräsentation
  • Schachtelung möglich
  • bilden Objekte und Klassen ab
  • um Konstrukte im Programm mit Serializer in Datei zu schreiben
Lösung ausblenden
  • 79362 Karteikarten
  • 2028 Studierende
  • 114 Lernmaterialien

Beispielhafte Karteikarten für deinen Data Science Kurs an der Universität Potsdam - von Kommilitonen auf StudySmarter erstellt!

Q:

Warum sind Daten schwer zu beschaffen?

A:
  • nicht zugänglich
  • teuer
  • nicht die "richtigen" Daten
  • Datenschutzgründe
Q:

Häufig haben wir ein Datenset, aber es fehlen Informationen. Was tun?

A:

Wir lassen Menschen, die fehlenden Informationen hinzufügen. Zum Beispiel durch Annotieren von Bildern.

Je nach Thematik (Problemstellung/Datensatz) können wir Experten oder Nicht-Experten engagieren.

Q:

What is the main problem when implementing parallel computing?

A:

- needs mechanisms to avoid reading/writing at the same time

- difficult to design bug--free programs


=> the program needs to be adapted for parallel computing

Q:

Wofür steht Data Wrangling?

A:

Rohdaten vorverarbeiten, in nutzbare Form bringen

Q:

Was ist Web Scraping?

A:

the method where data is collected from desired web pages and is also known as data collection and data extraction


https://github.com/Macuyiko/webscrapingfordatascience
https://realpython.com/python-web-scraping-practical-introduction/

Mehr Karteikarten anzeigen
Q:

Was sollte man beim Lesen von csv/Log Dateien beachten?

A:

Da sie sehr groß sein können, sollten sie zeilenweise gelesen werden. Ansonsten dauert es unter Umständen sehr lange (Java schneller als Python)

Q:

Was ist das am weitesten verbreitete Dateiformat für datasets?

A:

csv files. Sie stellen im Prinzip Datenbanktabellen dar.


(Ganz nebenbei:  Log Dateien haben ein sehr ähnliches Format)

Q:

Was beschreibt ein HTML Dokument?

A:

- HTML-Dokumente definieren die Struktur von Webseiten

- Struktur als DOM

- in der Praxis ab und zu unsauber (Problem beim Web Mining; Tools zur Beseitigung von Unsauberheiten)

Q:

Was bedeutet "Parsing"?

A:

Dealing with the structure of the data

zum Beispiel: um csv files zu lesen, muss der Computer die Struktur verstehen (Spalten, durch komma getrennt)


Meist besser library functions zu verwenden um Spezialfälle zu umgehen (z.B. Komma in einem Element)

Q:

Was ist der Unterschied zwischen Data Mining und Web Mining?

A:

Data mining: It is a concept of identifying a significant pattern from the data that gives a better outcome. Identifying patterns from where? From the data that are generated from the systems.

(teil)automatischen Extraktion von Informationen aus dem Internet aus HTML


Web mining: The process of performing Data mining on the web is called Web mining. Extracting the web documents and discovering the patterns from it.

Q:

Was sind Eigenschaften einer pdf Datei?

A:

- rein visuelles Format

- Spaltenstruktur nicht definiert

- Tools (Document Importing), die pdf interpretieren und Struktur erkennen

Q:

JSON: Was ist das? Wofür wird es verwendet?

A:
  • strukturierte Datenrepräsentation
  • Schachtelung möglich
  • bilden Objekte und Klassen ab
  • um Konstrukte im Programm mit Serializer in Datei zu schreiben
Data Science

Erstelle und finde Lernmaterialien auf StudySmarter.

Greife kostenlos auf tausende geteilte Karteikarten, Zusammenfassungen, Altklausuren und mehr zu.

Jetzt loslegen

Eine der Data Science Zusammenfassungen auf StudySmarter | Universität Potsdam


distribute map function across many different machines

map-reduce does not need shared memory

map, reduce should not depend on:

- order of items in the list

- order of operations

independence allows parallel computation

man kann auch average similarity/distance bestimmen oder

centroid similarity/distance

meist nutzt man aber single link/ complete link


Single Link und Complete Link beide Problem mit outliern (wie immer bei clustering): bei complete Link größeres Ausmaß, da Outlier größere Distanz hat

Single Link hat ein Problem, wenn Outlier zu nah an anderem Cluster liegt


Data Science

Diese Zusammenfassung wurde von Kommilitonen erstellt

Entdecke mehr

Das sind die beliebtesten Data Science Kurse im gesamten StudySmarter Universum

Big Data / Data Science

FOM Hochschule für Oekonomie & Management

Zum Kurs
Big Data & Data Science

FOM Hochschule für Oekonomie & Management

Zum Kurs

Die all-in-one Lernapp für Studierende

Greife auf Millionen geteilter Lernmaterialien der StudySmarter Community zu
Kostenlos anmelden Data Science
Erstelle Karteikarten und Zusammenfassungen mit den StudySmarter Tools
Kostenlos loslegen Data Science