Select your language

Suggested languages for you:
Log In Start studying!

Lernmaterialien für Knowledge Discovery an der Karlsruher Institut für Technologie

Greife auf kostenlose Karteikarten, Zusammenfassungen, Übungsaufgaben und Altklausuren für deinen Knowledge Discovery Kurs an der Karlsruher Institut für Technologie zu.

TESTE DEIN WISSEN

What are the three countermeasures for KD Experiments?

Lösung anzeigen
TESTE DEIN WISSEN
  1. Chose proper test/training split
  2. Pick proper evaluation / optimization measure
  3. Calculate confidence measures
Lösung ausblenden
TESTE DEIN WISSEN

Optimization Algorithms - AdaGrad

Lösung anzeigen
TESTE DEIN WISSEN
  • AdaGrad adapts the learning rate to the parameters
    • die Durchführung kleinerer Updates für Parameter, die mit häufig auftretenden Merkmalen verbunden sind, und
    • größere Updates für Parameter, die mit seltenen Features verbunden sind
  • Good for sparse (spärliche) data
Lösung ausblenden
TESTE DEIN WISSEN

Splitting methods - Hold-out 

  • Explanation
  • (Dis-)Advantages
Lösung anzeigen
TESTE DEIN WISSEN

Explanation

  • Split available data into two subsets: Training and Test Set
  • Train on training data, evaluate on test data

Advantages

  • Evaluation on data which is not used for training
  • easy to implement

Disadvantages

  • Not all the data is used for training
  • Evaluation results strongly depend on choice of training and test set
Lösung ausblenden
TESTE DEIN WISSEN

How to come up with an appropriate kernel function? (2 Cases)

Lösung anzeigen
TESTE DEIN WISSEN
  1. Derive it directly from explicit feature mappings
  2. Design a similarity function directly on the input data and check whether it conforms to a valid kernel function.
Lösung ausblenden
TESTE DEIN WISSEN

Splitting methods - Stratified sampling

  • Explanation
  • (Dis-)Advantages
Lösung anzeigen
TESTE DEIN WISSEN

Explanation

  • To "preserve" (= erhalten) characteristics of data

Advantage

  • Ability to preserve from unlabeled data

Disadvantages

  • Very complex
  • Requires high skills
Lösung ausblenden
TESTE DEIN WISSEN

Optimization Algorithms - RMSProp

Lösung anzeigen
TESTE DEIN WISSEN
  • AdaGrad decays the learning rate very aggressively
    • As a result the parameters will start receiving very small updates because of the decayed learning rate.
  • RMSProp automatically adjusts the learning rate
Lösung ausblenden
TESTE DEIN WISSEN

Optimization Algorithms - Adam

Lösung anzeigen
TESTE DEIN WISSEN
  • Adam is the combination of Momentum and RMSProp
    • Acceleration SGD in relevant direction, and
    • automatically update of learning rate 
Lösung ausblenden
TESTE DEIN WISSEN

How can Precision and Recall be improved?

Lösung anzeigen
TESTE DEIN WISSEN
  • Usually Precision leads to low Recall and vice versa
    • high Precision --> less FP & a lot TP --> less FN --> low Recall


Improve Precision: Return only relevant documents / test data

--> predicts cancer only if confident


Improve Recall: Return all documents / test data!

--> we do not miss too many cases of cancer

Lösung ausblenden
TESTE DEIN WISSEN

How can we optimize Multi-Layer ANNs?

Lösung anzeigen
TESTE DEIN WISSEN
  • Dropout
  • Optimization Algorithms
    • Gradient Descent with Momentum
    • AdaGrad
    • RMSProp
    • Adam
Lösung ausblenden
TESTE DEIN WISSEN


Which methods for splitting training and test data for evaluation do exist? (5x)


Lösung anzeigen
TESTE DEIN WISSEN
  1. Hold-out
  2. k-fold cross-validation
  3. Leave-one-out
  4. Bootstrapping
  5. Stratified sampling
Lösung ausblenden
TESTE DEIN WISSEN

What are the goals of Topic Modeling and there the general approach?

Lösung anzeigen
TESTE DEIN WISSEN

Topic Modeling provides methods for automatically 

  • organizing, 
  • understanding,
  • summarizing,
  • searching

large documents collections.


General Approach

1. Discover hidden topics

2. Annotate (comment) documents

3. Use annotations to organize, summarize and search

Lösung ausblenden
TESTE DEIN WISSEN

What are the Advantages (3x) and Disadvantages (2x) of LSA?

Lösung anzeigen
TESTE DEIN WISSEN

Advantages

  • Reduction in number of dimensions of matrices also reduces the storage footprint
  • Similar terms end up in the same dimension in ideal cases due to reduced number of dimensions
  • no more binary decisions

Disadvantages

  • Bad underlying statistical model
  • Does not solve the problem of polysemy (= one word, multiple meanings)
Lösung ausblenden
  • 101501 Karteikarten
  • 2033 Studierende
  • 191 Lernmaterialien

Beispielhafte Karteikarten für deinen Knowledge Discovery Kurs an der Karlsruher Institut für Technologie - von Kommilitonen auf StudySmarter erstellt!

Q:

What are the three countermeasures for KD Experiments?

A:
  1. Chose proper test/training split
  2. Pick proper evaluation / optimization measure
  3. Calculate confidence measures
Q:

Optimization Algorithms - AdaGrad

A:
  • AdaGrad adapts the learning rate to the parameters
    • die Durchführung kleinerer Updates für Parameter, die mit häufig auftretenden Merkmalen verbunden sind, und
    • größere Updates für Parameter, die mit seltenen Features verbunden sind
  • Good for sparse (spärliche) data
Q:

Splitting methods - Hold-out 

  • Explanation
  • (Dis-)Advantages
A:

Explanation

  • Split available data into two subsets: Training and Test Set
  • Train on training data, evaluate on test data

Advantages

  • Evaluation on data which is not used for training
  • easy to implement

Disadvantages

  • Not all the data is used for training
  • Evaluation results strongly depend on choice of training and test set
Q:

How to come up with an appropriate kernel function? (2 Cases)

A:
  1. Derive it directly from explicit feature mappings
  2. Design a similarity function directly on the input data and check whether it conforms to a valid kernel function.
Q:

Splitting methods - Stratified sampling

  • Explanation
  • (Dis-)Advantages
A:

Explanation

  • To "preserve" (= erhalten) characteristics of data

Advantage

  • Ability to preserve from unlabeled data

Disadvantages

  • Very complex
  • Requires high skills
Mehr Karteikarten anzeigen
Q:

Optimization Algorithms - RMSProp

A:
  • AdaGrad decays the learning rate very aggressively
    • As a result the parameters will start receiving very small updates because of the decayed learning rate.
  • RMSProp automatically adjusts the learning rate
Q:

Optimization Algorithms - Adam

A:
  • Adam is the combination of Momentum and RMSProp
    • Acceleration SGD in relevant direction, and
    • automatically update of learning rate 
Q:

How can Precision and Recall be improved?

A:
  • Usually Precision leads to low Recall and vice versa
    • high Precision --> less FP & a lot TP --> less FN --> low Recall


Improve Precision: Return only relevant documents / test data

--> predicts cancer only if confident


Improve Recall: Return all documents / test data!

--> we do not miss too many cases of cancer

Q:

How can we optimize Multi-Layer ANNs?

A:
  • Dropout
  • Optimization Algorithms
    • Gradient Descent with Momentum
    • AdaGrad
    • RMSProp
    • Adam
Q:


Which methods for splitting training and test data for evaluation do exist? (5x)


A:
  1. Hold-out
  2. k-fold cross-validation
  3. Leave-one-out
  4. Bootstrapping
  5. Stratified sampling
Q:

What are the goals of Topic Modeling and there the general approach?

A:

Topic Modeling provides methods for automatically 

  • organizing, 
  • understanding,
  • summarizing,
  • searching

large documents collections.


General Approach

1. Discover hidden topics

2. Annotate (comment) documents

3. Use annotations to organize, summarize and search

Q:

What are the Advantages (3x) and Disadvantages (2x) of LSA?

A:

Advantages

  • Reduction in number of dimensions of matrices also reduces the storage footprint
  • Similar terms end up in the same dimension in ideal cases due to reduced number of dimensions
  • no more binary decisions

Disadvantages

  • Bad underlying statistical model
  • Does not solve the problem of polysemy (= one word, multiple meanings)
Knowledge Discovery

Erstelle und finde Lernmaterialien auf StudySmarter.

Greife kostenlos auf tausende geteilte Karteikarten, Zusammenfassungen, Altklausuren und mehr zu.

Jetzt loslegen

Das sind die beliebtesten StudySmarter Kurse für deinen Studiengang Knowledge Discovery an der Karlsruher Institut für Technologie

Für deinen Studiengang Knowledge Discovery an der Karlsruher Institut für Technologie gibt es bereits viele Kurse, die von deinen Kommilitonen auf StudySmarter erstellt wurden. Karteikarten, Zusammenfassungen, Altklausuren, Übungsaufgaben und mehr warten auf dich!

Das sind die beliebtesten Knowledge Discovery Kurse im gesamten StudySmarter Universum

Knowledge Management

FernUniversität in Hagen

Zum Kurs
Knowledge Management

FernUniversität in Hagen

Zum Kurs
knowledge management

FernUniversität in Hagen

Zum Kurs
flight test/knowledge

Okanagan University College

Zum Kurs
General Knowledge

York University

Zum Kurs

Die all-in-one Lernapp für Studierende

Greife auf Millionen geteilter Lernmaterialien der StudySmarter Community zu
Kostenlos anmelden Knowledge Discovery
Erstelle Karteikarten und Zusammenfassungen mit den StudySmarter Tools
Kostenlos loslegen Knowledge Discovery