Data Analysis in R

Karteikarten und Zusammenfassungen für Data Analysis in R an der TU München

Arrow Arrow

Komplett kostenfrei

studysmarter schule studium
d

4.5 /5

studysmarter schule studium
d

4.8 /5

studysmarter schule studium
d

4.5 /5

studysmarter schule studium
d

4.8 /5

Lerne jetzt mit Karteikarten und Zusammenfassungen für den Kurs Data Analysis in R an der TU München.

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

Increasing sample size - Properties

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

How to deal with overfitting

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

How to go from un-tidy to tidy data? 1. step

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

Quantile-quantile plots – Motivation

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

False Discovery Rate: Benjamini-Hochberg

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

Cross-validatio: when i.i.d. assumption is not met

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

False Discovery Rate: Benjamini-Hochberg

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

Multiple Testing

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

Relationships between confidence intervals and p-values

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

How to go from un-tidy to tidy data? 2.step

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

Confidence intervals - Remember definition

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

Cross-validation pitfalls

Kommilitonen im Kurs Data Analysis in R an der TU München. erstellen und teilen Zusammenfassungen, Karteikarten, Lernpläne und andere Lernmaterialien mit der intelligenten StudySmarter Lernapp. Jetzt mitmachen!

Jetzt mitmachen!

Flashcard Flashcard

Beispielhafte Karteikarten für Data Analysis in R an der TU München auf StudySmarter:

Data Analysis in R

Increasing sample size - Properties
As N grows any difference can be detected
This has implications for experimental design-> one can estimate how large a sample must be to significantly detect effects of certain amplitudes

also means: with big data one can easily get any small effects statistically significant

It is important to report not only the p -value but also an estimate of the effect
The plot is important

Data Analysis in R

How to deal with overfitting
If the model is overfitting: Apply regularization approaches (reduce complexity)

Data Analysis in R

How to go from un-tidy to tidy data? 1. step
have a data.table as soon as possible

Data Analysis in R

Quantile-quantile plots – Motivation
Checking that a distribution fits the data is frequent and an important task in data analysis
Examples:
-check tat the data is approximately normally distributed before running a t-test or testing coefficients of a linear regression (next week).
-check that p-values are uniformly distributed
-detect outliers in a dataset

Data Analysis in R

False Discovery Rate: Benjamini-Hochberg
Benjamini-Hochberg correction implements this idea and converts all p-values to FDR.

Data Analysis in R

Cross-validatio: when i.i.d. assumption is not met
assume data come in clusters you are not aware of (e.g. people from same families)

Performing cross-validation at level of individual data points will favor models that learns the clusters

one need to perform cross-validation at the cluster level to learn the trend across clusters.

This is difficult without application knowledge. visualization techniques can help!

Data Analysis in R

False Discovery Rate: Benjamini-Hochberg
If all tests were truly under the null hypothesis, then the distribution of the p-values should be uniform by definition. Deviations from this indicate an excess of true rejections

Data Analysis in R

Multiple Testing
When m tests are performed, what is the extent of false positives (rejection of Ho altough truly null), and how can it be controlled?

FAMILY_WISE ERROR RATE: P(V>0), the probability of one or more false positives. For large m0 this is difficult to keep small.
FALSE DISCOVERY RATE: E[V/ max(R,1)], the expected fraction of false positives among all discoveries

Data Analysis in R

Relationships between confidence intervals and p-values
If a 95% confidence interval of the spread does not include 0, we know that the p-value for the null hypotetsis that the parameter equal 0 must be smaller than 0.05

A CONFIDENCE INTERVAL GIVES AN IDEA OF THE SIZE OF THE ESTIMATE

The p-value simply reports a probability and says nothing about the significance of the finding in the context of the problem.

Data Analysis in R

How to go from un-tidy to tidy data? 2.step
Melting and casting (wide <-> long data)

Data Analysis in R

Confidence intervals - Remember definition
A confidence interval of confidence level 1-alpha for a special parameter is an interval, which would the data generation process be repeated, would contain the parameter with probability 1-alpha. A typical value is alpha = 0.05 which leads to a 95% confidence interval.

Data Analysis in R

Cross-validation pitfalls
Issuse / Assumption
The traning samples and the test samples are i.i.d.
Non identical distribution:
training set = red apples and green pears
test set contains green apples

training set = observational data
test set = perturbation data

Melde dich jetzt kostenfrei an um alle Karteikarten und Zusammenfassungen für Data Analysis in R an der TU München zu sehen

Singup Image Singup Image
Wave

Andere Kurse aus deinem Studiengang

Für deinen Studiengang Informatik an der TU München gibt es bereits viele Kurse auf StudySmarter, denen du beitreten kannst. Karteikarten, Zusammenfassungen und vieles mehr warten auf dich.

Zurück zur TU München Übersichtsseite

Blockchain

Cognitive System

Databases for modern CPU

Protein Prediction I

18WS_Strategisches_IT_Management

Patterns

Softwaretechnik

Autonomous Driving

Requirements Engineering

Web Application Engineering

Business Analytics

Echtzeitsysteme

Patterns in Software Engineering

Principles of Economics

Data Mining and Knowledge Discovery

Introduction to Deep Learning

Data Mining and KD

Visual data analytics

Was ist StudySmarter?

Was ist StudySmarter?

StudySmarter ist eine intelligente Lernapp für Studenten. Mit StudySmarter kannst du dir effizient und spielerisch Karteikarten, Zusammenfassungen, Mind-Maps, Lernpläne und mehr erstellen. Erstelle deine eigenen Karteikarten z.B. für Data Analysis in R an der TU München oder greife auf tausende Lernmaterialien deiner Kommilitonen zu. Egal, ob an deiner Uni oder an anderen Universitäten. Hunderttausende Studierende bereiten sich mit StudySmarter effizient auf ihre Klausuren vor. Erhältlich auf Web, Android & iOS. Komplett kostenfrei. Keine Haken.

Awards

Bestes EdTech Startup in Deutschland

Awards
Awards

European Youth Award in Smart Learning

Awards
Awards

Bestes EdTech Startup in Europa

Awards
Awards

Bestes EdTech Startup in Deutschland

Awards
Awards

European Youth Award in Smart Learning

Awards
Awards

Bestes EdTech Startup in Europa

Awards

So funktioniert's

Top-Image

Individueller Lernplan

StudySmarter erstellt dir einen individuellen Lernplan, abgestimmt auf deinen Lerntyp.

Top-Image

Erstelle Karteikarten

Erstelle dir Karteikarten mit Hilfe der Screenshot-, und Markierfunktion, direkt aus deinen Inhalten.

Top-Image

Erstelle Zusammenfassungen

Markiere die wichtigsten Passagen in deinen Dokumenten und bekomme deine Zusammenfassung.

Top-Image

Lerne alleine oder im Team

StudySmarter findet deine Lerngruppe automatisch. Teile deine Lerninhalte mit Freunden und erhalte Antworten auf deine Fragen.

Top-Image

Statistiken und Feedback

Behalte immer den Überblick über deinen Lernfortschritt. StudySmarter führt dich zur Traumnote.

1

Lernplan

2

Karteikarten

3

Zusammenfassungen

4

Teamwork

5

Feedback