VL Testtheorie at Universität Erlangen-Nürnberg | Flashcards & Summaries

Select your language

Suggested languages for you:
Log In Start studying!

Lernmaterialien für VL Testtheorie an der Universität Erlangen-Nürnberg

Greife auf kostenlose Karteikarten, Zusammenfassungen, Übungsaufgaben und Altklausuren für deinen VL Testtheorie Kurs an der Universität Erlangen-Nürnberg zu.

TESTE DEIN WISSEN

Einführung: Was sind Tests?

Lösung anzeigen
TESTE DEIN WISSEN
  • Wort Test wird vielfach verwendet: Crash-Test, Stiftung Warentest, Hypothesentest, statistische Prüfverfahren, psychologische Tests, Vorgang der Durchführung der Untersuchung à Vorlesung bezieht sich auf psychologische Testverfahren --> Messverfahren, keine Bewertung, sondern mehr Erfassung
  • Inhaltlicher Aufbau von Testverfahren:
    1. Testskala setzt sich aus mehreren Aufgaben (Items) zusammen
    2. Ein Testverfahren kann sich auch wiederum aus mehreren Subskalen zusammensetzen
    3. Mehrere Testverfahren = zu Testbatterie zusammenfassbar
    4. Testbatterien dienen der Beantwortung komplexerer Fragestellungen
    5. Testverfahren als ein Element, um psychodiagnostische Daten zu erheben


  • Definitionen psychologischer Tests (nicht auswendig, nur fürs Verständnis):
  • Lienert und Raatz (1994): Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst qualitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung

  • Krauth (1995): Ein psychologischer Test besteht aus einer Menge von Reizen mit den zugehörigen zugelassenen Reaktionen, d.h. aus einer Menge von manifesten Variablen, und einer Vorschrift (Skala), die den Reaktionsmustern der manifesten Variablen Ausprägungen einer oder mehrerer latenter Variablen zuordnen




Lösung ausblenden
TESTE DEIN WISSEN

Einführung: Was sind zentrale Elemente der Definition von Tests und was sind geschichtliche Entwicklungen?

Lösung anzeigen
TESTE DEIN WISSEN
  1. Erfassung von Merkmalen: 
    • Zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale
    • Erkundung und Beschreibung individueller Merkmale
    • Die Merkmale sind: Empirisch abgrenzbar, Latente Variablen (vs. manifeste Variablen), Individuelle Merkmale (keine Gruppenmessungen), typischerweise Persönlichkeitsmerkmale aber nicht nur
  2. Wissenschaftliches Routineverfahren:
    • Unter standardisierten Bedingungen
    • Eine mehr oder weniger stringente Durchführungsform
    • Test besteht aus einer Menge von Reizen mit den zugehörigen zugelassenen Reaktionen und einer Vorschrift (Skala)
    • Dass unter standardisierten Bedingungen einen wissenschaftlich begründeten Rückschluss gestattet
    • Objektive, regelgeleitete Erfassung, die wissenschaftlich fundiert ist
  3. Informationsstichprobe
    • Es werden i.d.R. mehrere Reiz-Reaktions-Folgen betrachtet z.B. Was ist das Gemeinsame bei einer Apfelsine und einer Banane (= 1 Item bzw. 1 Reiz)
    • Weitere Variablen, die sich auf die gleiche latente Variable beziehen vgl. Personenstichprobe Statistik
  4. Quantifizierung und Vergleich
    • Regeln, die die gesammelten Informationen so integrieren, dass eine (qualitative) Aussage über die Ausprägung des in Frage stehenden Merkmals möglich ist
    • Ziel: relative Positionsbestimmung in Bezug zur Ausprägung des Merkmals bei anderen Personen (oder Sachen) oder in Bezug zu einem bestimmten Kriterium

--> Daher: psychometrische Testverfahren 


  • Geschichtliche Entwicklungen:
    1. Intelligenzprüfung (Intelligenz weiter gefasst als kognitive Leistung) als historisches Entstehungsfeld von Testverfahren
    2. Frühe Ansätze:
      • Rieger (1889): Entwurf zu einer allgemeinen Methode der Intelligenzprüfung
      • Ziehen (1897): Prinzipien und Methoden der Intelligenzprüfung à standardisierte Aufgaben/Items; Idee von Normalleistung
      • McKeen Cattell (1890): Prüfreihen zur Testung elementarer psychischer und psychophysischer Funktionen à statistische Weiterentwicklung
      • Kraeplin, Ebbinghaus und andere überhnehmen McKeen Cattells Grundsätze für die Erfassung höherer Funktionen (Ordnen, Lernen, etc.)
    3. Ab 1900 Bestreben „Intelligenz“ als Gesamtkonstrukt zu erfassen, statt psychischer Ersatzfunktionen, Wunsch der Quantifizierung à IQ, statistische Methoden zur Bestimmung „guter Aufgaben“:
      • Z.b, Binet/Simon: Testserie zur Auslese Minderbegabter: standardisierte Aufgabenreihen, Revision des Tests mit Ausschaltung ungeeigneter Aufgaben
      • Z.b. Stern: u.a. Einführung des IQ
      • Z.b. Spearman: mathematische Grundlagen
    4. Seit 1. Weltkrieg: Army-Alpha- und Army-Beta-Tests (alpha sprach-schriftlich, beta für Analphabeten)
      • Gruppentestung mit Paper-and-Pencil-Verfahren als ökonomische Form der Intelligenzprüfung
      • Entwicklung von Paralleltestformen
      • Thurstone: The Reliability and Validity of Tests à Basic rules
    5. Klassische Testtheorie
      • Gulliksen (1950): Systematisierung testtheoretischer Vorarbeiten
      • Rasch (1960): Probabilisitische Testtheorie


  • Anwendungsbereiche:
    1. Testverfahren haben sehr hohen Stellenwert in der psychologischen Diagnostik 
    2. Entsprechend vielfältig sind die Anwendungsbereiche: Leistungs- und Eignungsdiagnostik, pädagogischer Bereich, Arbeitspsychologie, Verkehrspsychologie …

 

 

Lösung ausblenden
TESTE DEIN WISSEN

Wie kann man Testverfahren klassifizieren?

Lösung anzeigen
TESTE DEIN WISSEN
  • Klassifikation von Testverfahren:
    1. Nach Inhaltsbereich:
      • Leistungstests (Intelligenz, allgemeine Leistungstests, Entwicklungstests, Schultests, spezielle Fertigkeiten) vs. Persönlichkeitstests (spez. Pers.-Einstellungstests, Interessentests, klinische Testverfahren)
      • Cronbach: maximales vs. typisches Verhalten à Leistungstests erfassen maximales Verhalten, Persönlichkeitstests erfassen typisches Verhalten, also andere Eigenschaften als Intelligenz, wobei es kein besser/schlechter gibt


  1. Zusätzliche Unterscheidung bei Leistungstests: Schnelligkeitstests (Speedtests) vs. Niveautests (Powertests)
    • Schnelligkeitstests: Leicht zu lösende Aufgaben, die jeder bewältigen kann, Bearbeitung erfolgt mit Zeitbegrenzung à wesentlich für Erhebung der Leistungsfähigkeit ist Geschwindigkeit der Aufgabenlösung (z.B. Zahlenverbindungstests)
    • Niveautests: Keine oder sehr großzügige Zeitbegrenzung, Aufgaben nehmen im Laufe des Tests an Schwierigkeit zu und sind zum Ende hin so anspruchsvoll, dass nur wenige Personen alle Aufgaben vollständig lösen können à wesentlich für Erhebung der Leistungsfähigkeit ist Güte der Aufgabenlösung
    • Teilweise werden Power- und Speedanteile gemischt --> Powertests mit (engeren) Zeitbegrenzungen


  1. Weitere Unterscheidungskriterien:
    • Nach Bezugsmaßstab: normorientiert vs. kriteriumsorientiert à Quantifizierung im Bezug auf die Vergleichsgruppe vs. Referenzgruppe hat keine große Bedeutung, sondern kritische Grenzen (z.B. Depression)
    • Formale Kriterien: Materialien, computergestützt, Gruppe vs. Einzel
    • Nach Konstruktionsgrundlage: Klassische oder probabilistische Testtheorie
Lösung ausblenden
TESTE DEIN WISSEN

Klassische TT: Was bedeutet klassische Testtheorie?

Lösung anzeigen
TESTE DEIN WISSEN
  • „Klassisch“:
    1. Da schon vor über 50 Jahren erstmals systematisch formuliert (Gullikson, 1950)
    2. Geht auf pragmatische Überlegungen hinsichtlich der Konstruktion von Tests zurück, die seit Beginn des 20. Jhdt. Entwickelt wurden
  • In Abgrenzung zu „modernen“ Testtheorien (Item-Response-Theorie; probabilistische Modelle)
  • Trotz aller (theoretischer) Kritik ist KTT nach wie vor sehr weit verbreitet
    1. Viele Tests wurden (und werden) auf der Grundlage der KTT konstruiert
    2. Tests haben sich in praktischer Anwendung bewährt
  • KTT orientiert sich an physikalischer Messung
    1. Reine Messfehlertheorie
    2. Keine Aussagen zu Zusammenhängen von psychischen Merkmalen und Testverhalten
    3. Keine Unterscheidung von latenten und manifesten Variablen


  • Axiomatik der KTT (Axiome = Festlegungen)
  • Kern der  KTT bilden eine Reihe von Axiomen:
    1. Axiome stellen nicht hinterfragte Grundannahmen dar
      • Bilden ein in sich logisches System
      • Nicht beweisbar, nur mehr oder weniger plausibel
    2. In der KTT beziehen sich Axiome auf die Eigenschaften des „wahren Werts“ (zu messender Wert) und des Messfehlers
    3. Die Axiome erlauben praktisch sinnvolle Ableitungen, die im Rahmen der Testkonstruktion nutzbar gemacht werden können 
Lösung ausblenden
TESTE DEIN WISSEN

Testkontruktion: Was beinhaltet die erste Phase der Testkonstruktion, die Planungsphase?

Lösung anzeigen
TESTE DEIN WISSEN

Schritte der Testkonstruktion: 

 

1.Planungsphase

2.Aufgabenkonstruktion à Testitems 

3.Itemanalyse à abhängig vom Testmodell 

4.ErstellungderTestendformund Kontrolle der Testgütekriterien à bezieht sich auf fertigen Test 

5.Normierung

[Manualerstellung & Publikation; Testpflege(Revisionen, weitere Validierung)]

 

  • stellt keinen vollständig linearen Prozess dar: Es sind Rückkopplungsschleifen möglich


1. Planungsphase: 

  • Fragestellung
    1. Festlegung von Validitäts- und Geltungsbereich à Was will man erfassen? Art und Weise der Anwendung? 
    2. Psychologische Merkmalsanalyse
  • Struktur des Tests
    1. (Testlänge, Darbietungsform, Gruppe/Einzel, Ein-vs. mehrdimensionaler Test etc.)
  • Modellwahl/Konstruktionsstrategie
    1. (z.B. KTT vs. PTT; Art der Bestimmungv on Subskalen) à abhängig von der Zielsetzung des Tests 


  • Validitäs- und Geltungsbereich: 

 

  1. Geltungsbereich: Für wen soll das Testverfahren gültig sein? (z.B. Kinder/Jugendliche/Erwachsene…) à Für wen ist der Test gedacht? 
  2. Wesentlich für weitere Konstruktionsschritte 
    • Inhaltlich, z.B. Komplexität der Aufgaben und Instruktionen, Besonderheiten der Zielgruppe 
    • Methodisch, z.B. Stichprobenrekrutierung 


  1. Validitätsbereich: Welche inhaltlichen Aspekte soll das Verfahren umfassen, welche nicht? Zu welchem Zweck? 
    • z.B. Erfassung eines theoretischen Konstruktes vs. Grundlage für konkrete praktische Entscheidungen
    • Komplexes/umfängliches vs. eng umschriebenes Merkmal 
    • Zeitliche Stabilität des Merkmals (State vs. Trait)
    • Welche Validierungskriterien kann man nutzen?
    • Geht es um spezifische Kontexte? à z.B. Schulkontext 
    • Leistung vs. Persönlichkeit (max. vs. typisches Verhalten)
  2. Genaue Antworten oft erst nach ausführlicher Merkmalsanalyse möglich



  • Merkmalsanalyse: 
    1. Erarbeiten einer (Arbeits-)Definition des zu erhebenden Konstruktes
      • Sammlung und Analyse von Informationen zum Themenbereich
      • auch: Abgrenzung zu anderen Konstrukten à z.B. was ist Intelligenz nicht? 
    2. Strukturierung des Merkmals
      • Differenzierung von spezifischeren Dimensionen/ Verhaltenskategorien à z.B. sozial kompetentes Verhalten als komplexes Konstrukt mit vielen unabhängigen Konstrukten 
      • gewährleistet inhaltliche Vollständigkeit und Ausgewogenheit bei Itemkonstruktion à repräsentativer Itempool
    3. Je nachdem worum es geht, kann die Analyse mehr oder weniger stark an theoretischen Modellen zum Konstrukt orientiert sein und die Quellen können variieren
      • normalerweise einschlägige Theorien, empirische Arbeiten, Forschungsreviews usw.
      • Expertenbefragung à z.B. Erzieher bei Test für Kinder 
      • ggf. Interviews/Beobachtung einer Stichprobe der Zielpopulation
      • z.T. auch rein anforderungsbezogen --> bei Test für konkrete Tätigkeit 


Lösung ausblenden
TESTE DEIN WISSEN

Testkonstruktion: Was gehört des weiteren zum zweiten Schritt der Testkonstruktion, der Aufgabenkonstruktion?

Lösung anzeigen
TESTE DEIN WISSEN

2.Aufgabenkonstruktion: 

 

  1. Aufgabenarten
    • Antwortformate (z.B. gebunden vs. frei) 
    • Reizvorlage (z.B. sprachlich, Bilder) 
  2. Auswahlstrategien 
  3. Itemformulierung und -gestaltung 



  • Items: Auswahlstrategien: 
    1. Übernahme aus vergleichbaren Verfahren
      • evtl. Übersetzungen
      • Operationalisierungen aus Forschungsliteratur
      • Probleme:
        • evtl. nicht alle Aspekte des Konstrukts repräsentiert
        • Angemessenheit für angestrebte Zielgruppe
    2. Eigenkonstruktion
      • Theoriegeleitet à aus der Merkmalsanalyse heraus, Frage der Operationalisierung 
      • intuitiv
      • Unterstützung durch Voruntersuchungen --> Ausprobieren von  Items in Voruntersuchungen, Feststellung von Zielgruppeneignung

 

  • Itemkonstruktion: 
    1. Bei Itemkonstruktion ist zu beachten, dass
      • Bezug zum Konstrukt gewahrt ist --> sich nicht verrennen (Beispiel Youtube Videos schauen) 
      • Konstrukt in seiner Breite repräsentiert ist

--> Grundlage: Merkmalsanalyse

  • keine systematischen Antwortverzerrungen auftreten --> Keine Antworten nahelegen z.B. Sind sie ein netter Mensch? (alle würden Ja sagen) 

 

  • erfordert angemessene Itemformulierung
  • ggf. Maßnahmen, um Antworttendenzen zu vermeiden (beides v.a. bei Persönlichkeitsfragebögen wichtig)



Lösung ausblenden
TESTE DEIN WISSEN

Testkonstruktion: Im zweiten Schritt der Testkonstruktion, was versteht man unter provisorischen Testentwürfen?

Lösung anzeigen
TESTE DEIN WISSEN
  • Provisorischer Testentwurf: 
    1. Für den Zweck der weiteren Konstruktion muss eine vorläufige Fassung des Tests zusammengestellt werden, die möglichst weitgehend der endgültigen Version entspricht 
      • Erstellen einer Testanweisung (inkl. Spezial-anweisungen für verschiedene Aufgabenblöcke)
      • evtl. Gruppierung der Items
        • nach Spezialanweisung/Aufgabentyp
        • nach Schwierigkeit (bei Leistungstests stehen u.a. aus motivationalen Gründen leichte Aufgaben zu Beginn)
        • bei Leistungstests oft auch nach Inhalt (Subtests); bei Persönlichkeitsfragebögen eher gemischt, um Konsistenzeffekte zu vermeiden


  • Provisorischer Test: 
    1. Provisorischer Test wird von einer Konstruktionsstichprobe bearbeitet
      • Repräsentativität der Stichprobe
      • Dient v.a. der Generierung von Daten für weitere Konstruktionsschritte
      • Aber auch: Feedback der Probanden (Verständnisschwierigkeiten, Probleme mit Antwortformat etc.)
        • retrospektive Befragung
        • Verhaltensbeobachtung, evtl. mit gezielten Nachfragen im Anschluss an Testbearbeitung
        • Während der Testbearbeitung: Technik des lauten Denkens (Testdaten selbst können dann aber nicht verwendet werden!)
    2. Erprobungs-Ernstfall-Dilemma
      • Für Probanden der Konstruktionsstichprobe ist Test „bedeutungslos“ (keine persönlichen Konsequenzen)
  • Kann zu anderem Antwortverhalten führen
  • Bearbeitung des vorläufigen Tests soll der späteren Anwendungssituation möglichst ähnlich sein
    • z.B. Einstreuen in echte Testbatterie (aber: ethische Problematik)
    • Grundsätzlich: Optimizing vs. Satisficing


  • Zuordnung der Items zu Testskalen (Frage: Welches Item gehört auf welche Skala?): 
    1. Ziel der Aufgabenkonstruktion ist, dass das Konstrukt möglichst genau und in seiner Breite erfasst wird
    2. Welche Items gehören zu dem Konstrukt?
    3. Handelt es sich um ein mehrdimensionales Konstrukt?
  • Falls ja: Items in mehrere eindimensionale Subskalen zusammenfassen

 

  • Grundlegende Konstruktionsstrategien: 
    1. Es gibt einige prototypische Strategien, die eine Zuordnung von Items zu Skalen erlauben
      • rationale Strategie
      • intuitive Strategie
      • externale (kriteriumsorientierte) Strategie
      • internale (faktorenanalytische) Strategie
Lösung ausblenden
TESTE DEIN WISSEN

Testkonstruktion: Was sind Probleme der Faktoranalyse und was lässt sich generell zu den Konstruktionsstrategien anmerken?

Lösung anzeigen
TESTE DEIN WISSEN
  • Probleme der faktoranalytischen Skalenkonstruktion: 
    1. In Reinform eine atheoretische Vorgehensweise
      • Warum resultieren bestimmte Merkmalsdimensionen?
      • Sind diese Dimensionen sinnvoll/vollständig?
    2. Es können nur Faktoren/Skalen extrahiert werden, die auch in Itempoolrepräsentiert sind
      • Dimensionen, die nur wenig/gar nicht in Items repräsentiert sind, werden „übersehen“
      • (Theoretische) Merkmalsanalyse bleibt von großer Bedeutung


  • Grundlegende Konstruktionsstrategien: 
    1. Es handelt sich um prototypische Strategien
    2. Kombinationen sind möglich und werden für gewöhnlich auch vorgenommen, z.B.
      • vorläufige Konstruktion per intuitiver Strategie mit anschließender faktorenanalytischer Verfeinerung
      • faktorenanalytische Konstruktion mit rational geleiteten Ergänzungen (z.B. FPI)
      • Kontrolle rationaler Konstruktion mit Hilfe empirischer Methoden

 

  • In Skalenzusammenstellung: 
    1. Items, die …
      • … aus theoretischen Gründen zusammengehören (rationale Strategien) …
      • … bezüglich eines externen Kriteriums gut trennen (kriteriumsorientierte Strategie) …
      • … auf den jeweiligen Faktoren hoch laden (faktorenanalytische Strategie)…,
      • … werden zu Subskalen zusammengefasst
    2. Jede der Subskalen soll im späteren Test eine Facette des komplexen Merkmals erfassen


  • Bestimmung der Skalenwerte: 
    1. Umpolung von Items
      • Bei der Ermittlung der Skalenwerte muss man darauf achten, dass die Itemwerte bei der Aufsummierung in die gleiche Richtung laufen
        • Items, die negativ laden bzw. das inhaltliche Gegenteil der Skala ausdrücken, müssen ggf. umgepolt werden, um in Richtung der Skala zu liegen
    2. Beispiel: Das Item „Ich bin am liebsten allein“ lädt negativ auf dem Faktor/der Skala „Extraversion“
      • hoher Wert bedeutet geringe Extraversion
      • Item wird umgepolt, d.h. Antwortformat „1-2-3-4“ wird als „4-3-2-1“ gewertet
    3. Nach der Skalenbildung müssen für weitere Analysen Skalenwerte ermittelt werden
    4. verschiedene Möglichkeiten
      • einfache Aufsummierung der Items
      • gewichtete Skalenwerte
        • Items können je nach Bedeutung für Skala gewichtet werden (z.B. per Faktorladung)
    5. Ermittlung muss so erfolgen wie sie für spätere Auswertung vorgesehen ist
      • bei händischer Auswertung meist einfache Summe

 

Lösung ausblenden
TESTE DEIN WISSEN

Testkonstruktion: Was bedeutet Aufgabenrevision (3. Konstruktionsschritt, Itemanalyse/Sleektion)?

Lösung anzeigen
TESTE DEIN WISSEN
  • Ggf. kann es sinnvoll oder notwendig sein, Aufgaben, deren Kennwerte unzureichend sind, zu revidieren, um sie zu erhalten
  • Gründe für Aufgabenrevision
    1. zu wenige ausreichend gute Items, um eine vollständige Skala zu erstellen
    2. Erhalten von Items mit besonders hoher inhaltlicher Relevanz
    3. Analysedaten legen Verbesserungspotential einer Aufgabe nahe
    4. vollständige Neuformulierung von Aufgaben
    5. teilweise Veränderung (z.B. Veränderung der Distraktoren bei MC-Aufgaben)
    6. Revision erfolgt nach Möglichkeit unter Nutzung der Analysedaten bzw. explizitem Feedback
  • Bei umfangreichen Revisionen muss die Itemanalyse erneut durchgeführt werden
  • Bei nur minimalen Revisionen kann ggf. darauf verzichtet werden und direkt zur Prüfung der Testendform übergegangen werden
Lösung ausblenden
TESTE DEIN WISSEN

Testkonstruktion: Was beinhaltet der vierte Schritt der Testkonstruktion?

Lösung anzeigen
TESTE DEIN WISSEN

Schritte der Testkonstruktion

 

  1. Planungsphase 
  2. Aufgabenkonstruktion
  3. Itemanalyse
  4. Erstellung und Prüfung der Testendform 
  5. Normierung 

 


Bestimmung der Testgütekriterien: 

 

  • Auf Basis dieser Testendform werden in einem weiteren Konstruktionsschritt, die Testgütekriterien ermittelt
    1. teilweise können Testgütekriterien auch schon mittels der vorliegenden Daten aus früheren Konstruktionsschritten abgeschätzt werden
    2. für die dezidierte Beurteilung der Gütekriterien sollte aber eine neue, repräsentative Konstruktionsstichprobe gezogen werden, die die Testendform bearbeitet
  • Bestimmung von Testgütekriterien
    1. Objektivität
    2. Reliabilität
    3. Validität


Objektivität: 

 

  • Unabhängigkeit der Testergebnisse vom Untersucher
    1. „Ein Test ist dann objektiv, wenn er dasjenige Merkmal das er misst, unabhängig von Testleiter, Testauswerter und von der Ergebnisinterpretation misst.“

 

  • Objektivität lässt sich je nach Stelle im (test)diagnostischen Prozess untergliedern:
    1. Durchführungsobjektivität  (Testleiterunabhängigkeit)
    2. Auswertungsobjektivität (Verrechnungssicherheit)
    3. Interpretationsobjektivität (Interpretationseindeutigkeit)
  • Überprüfbarkeit der Durchführungsobjektivität
    1. mehrere Testleiter (TL) können gleiche Personen zu verschiedenen Zeitpunkten testen
    2. Probleme:
      • auch andere Bedingungen (außer TL) können mehr oder weniger variieren
      • auch bei gleichem TL ergeben sich mehr oder weniger unterschiedliche Ergebnisse (Einfluss der Reliabilität)
  • hohe Standardisierung der Durchführung reduziert TL-Effekte
    1. aber dennoch z.B. Geschlechtseffekt etc. möglich
  • Auswertungs- und Interpretationsobjektivität einfacher zu prüfen (da erst nach Testverhalten)
    1. Auswertungsobjektivität abhängig von „Freiheit“ der Antworten und der Reglementierung bei der Beurteilung der Testreaktionen
    2. Interpretationsobjektivität kann durch Normierung sichergestellt werden
  • Häufig erfolgt keine explizite Bestimmung der Objektivität, sondern sie wird durch bestimmte Vorgaben in der Testanwendung gesichert (Standardisierung, Normierung)


Lösung ausblenden
TESTE DEIN WISSEN

Testkonstruktion: Wie kann man die Methoden zur Reliabilitätsbestimmung miteinander vergleichen?

Lösung anzeigen
TESTE DEIN WISSEN
  • Vergleich der Methoden der Reliabilitätsbestimmungen: 
    1. Aufwand/Zeitpunkt der Reliabilitätsprüfung
      • Wiederholungsmethoden (Retest/Paralleltest-Reliabilität) sind aufwendiger
      • Konsistenzmethoden ohne weitere Erhebung direkt im Anschluss an die Aufgabenanalyse möglich 
      • à Konsistenz/Split-Half-Reliabilität sollte immer geprüft werden
    2. Praktische Reliabilität vs. Messgenauigkeit
      • bei Wiederholungsmethoden gehen auch andere Einflüsse (Testumgebung etc.) ein (praktische Rel.)
      • Konsistenzmethoden erfassen nur Mess-genauigkeit(instrumentelle Reliabilität)



  • Bewertung von Reliabilitätskennwerten: 
    1. Grobe Faustregeln
      • ab rtt= .50 à für Forschungsinstrumente ausreichend
      • für individuelle Urteile: rtt ≥ .70
      • für hochstandardisierte Tests werden aber in der Regel höhere Koeffizienten gefordert:
      • Konsistenz α ≥ .90
      • Parallel-/Retest rtt ≥ .80


  • Bewertung von Reliabilitätskennwerten: 
    1. Faktoren, die bei der Bewertung der Reliabilität berücksichtigt werden sollten
      • Art des zu erfassenden Merkmals & Vergleich mit verfügbaren Verfahren zu diesem Merkmal
      • Anwendungszwecke und -bedingungen, z.B.
        • Individual-vs. Kollektivdiagnostik
        • Screening-Verfahren vs. umfangreiches Testverfahren
        • Kosten-Nutzen-Erwägungen
    2. Art der Reliabilitätsbestimmung in Bezug zu Test-und Merkmalseigenschaften (z.B. Homogenität der Items; zeitl. Stabilität des Merkmals)
    3. Im Zusammenspiel mit Objektivität und Validität

 

Lösung ausblenden
TESTE DEIN WISSEN

Testkonstruktion: Welche Rolle spielt die Validität als Testgütekriterium innerhalb des vierten Konstruktionsschritts?

Lösung anzeigen
TESTE DEIN WISSEN

Validität 

 

 

 

  •  „Ein Test gilt dann als valide (‚gültig‘), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes“
  • Misst der Test was er zu messen vorgibt?
  • Zentrales Testgütekriterium, das Objektivität und Reliabilität übergeordnet ist
  • 3 grundlegende Validitätsarten
    1. Inhaltliche Validität
    2. Kriterienbezogene Validität
    3. Konstruktvalidität


  • Inhaltliche Validität: 
    1. auch: „logische Validität“, „facevalidity“, „Augenscheinvalidität“
    2. Grundfrage: Repräsentieren die Items logisch-inhaltlich das zu erfassende Konstrukt?
      • Es erfolgt also ein Repräsentationsschluss
      • Letztlich geht es um die Möglichkeit, das Testergebnis über die konkreten Aufgaben hinaus auf das Universum möglicher Aufgaben zu verallgemeinern
      • Repräsentationsschluss gilt v.a. für operational definierte Merkmale (Aufgaben entsprechen direkt dem zu messenden Konstrukt)
      • Für theoretisch definierte Konstrukte bezieht sich Inhaltsvalidität auch darauf, inwieweit unterschiedliche Antworten mit Hilfe des betreffenden Konstruktes schlüssig erklärt werden können
    3. Beurteilung erfolgt
      • A )auf Itemebene (Ist Item Teil der Gesamtheit interessierender Items?)
      • b) auf Ebene des Gesamttests (Stellen Items eine repräsentative Auswahl der Gesamtheit der interessierenden Items dar?)
    4. In der Regel erfolgt keine numerische Bestimmung der Inhaltsvalidität
    5. Gefahr der Übergeneralisierung
    6. Gefahr mangelnder Objektivität
    7. -->  Objektivierung durch Beurteilung der Inhaltsvalidität durch unabhängige Experten


  • Kriterienbezogene Validität
    1. Von zentraler Bedeutung, wenn Test als Grundlage für praktische Entscheidungen dient
    2. Idee: Konstrukt wird anhand eines Kriteriums erfasst à Korrelation des Tests mit dem Kriterium (rtc)
    3. Beispiele:
      • Schuleignungstest à Schulnote (Kriterium)
      • Depressionsinventar à klinische Diagnose Depression 
      • Test zur Rückfallgefährdung à erneute Straftaten 
    4. Unterscheidung nach Art der Kriterien: 
      • Vorhersage-vs. Übereinstimmungsvalidität
      • innere vs. äußere kriterienbezogene Validität
        • innere: anderes („etabliertes“) Testverfahren, das das gleiche Konstrukt erfasst
        • äußere: externe Maße wie Schulnoten, Arbeitsleistung etc.; auch z.B. Schätzurteile
    5. Tests haben im Prinzip mehrere Validitäten (je nach Kriterium unterscheidet sich rtc)

 

Lösung ausblenden
  • 310308 Karteikarten
  • 4795 Studierende
  • 181 Lernmaterialien

Beispielhafte Karteikarten für deinen VL Testtheorie Kurs an der Universität Erlangen-Nürnberg - von Kommilitonen auf StudySmarter erstellt!

Q:

Einführung: Was sind Tests?

A:
  • Wort Test wird vielfach verwendet: Crash-Test, Stiftung Warentest, Hypothesentest, statistische Prüfverfahren, psychologische Tests, Vorgang der Durchführung der Untersuchung à Vorlesung bezieht sich auf psychologische Testverfahren --> Messverfahren, keine Bewertung, sondern mehr Erfassung
  • Inhaltlicher Aufbau von Testverfahren:
    1. Testskala setzt sich aus mehreren Aufgaben (Items) zusammen
    2. Ein Testverfahren kann sich auch wiederum aus mehreren Subskalen zusammensetzen
    3. Mehrere Testverfahren = zu Testbatterie zusammenfassbar
    4. Testbatterien dienen der Beantwortung komplexerer Fragestellungen
    5. Testverfahren als ein Element, um psychodiagnostische Daten zu erheben


  • Definitionen psychologischer Tests (nicht auswendig, nur fürs Verständnis):
  • Lienert und Raatz (1994): Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst qualitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung

  • Krauth (1995): Ein psychologischer Test besteht aus einer Menge von Reizen mit den zugehörigen zugelassenen Reaktionen, d.h. aus einer Menge von manifesten Variablen, und einer Vorschrift (Skala), die den Reaktionsmustern der manifesten Variablen Ausprägungen einer oder mehrerer latenter Variablen zuordnen




Q:

Einführung: Was sind zentrale Elemente der Definition von Tests und was sind geschichtliche Entwicklungen?

A:
  1. Erfassung von Merkmalen: 
    • Zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale
    • Erkundung und Beschreibung individueller Merkmale
    • Die Merkmale sind: Empirisch abgrenzbar, Latente Variablen (vs. manifeste Variablen), Individuelle Merkmale (keine Gruppenmessungen), typischerweise Persönlichkeitsmerkmale aber nicht nur
  2. Wissenschaftliches Routineverfahren:
    • Unter standardisierten Bedingungen
    • Eine mehr oder weniger stringente Durchführungsform
    • Test besteht aus einer Menge von Reizen mit den zugehörigen zugelassenen Reaktionen und einer Vorschrift (Skala)
    • Dass unter standardisierten Bedingungen einen wissenschaftlich begründeten Rückschluss gestattet
    • Objektive, regelgeleitete Erfassung, die wissenschaftlich fundiert ist
  3. Informationsstichprobe
    • Es werden i.d.R. mehrere Reiz-Reaktions-Folgen betrachtet z.B. Was ist das Gemeinsame bei einer Apfelsine und einer Banane (= 1 Item bzw. 1 Reiz)
    • Weitere Variablen, die sich auf die gleiche latente Variable beziehen vgl. Personenstichprobe Statistik
  4. Quantifizierung und Vergleich
    • Regeln, die die gesammelten Informationen so integrieren, dass eine (qualitative) Aussage über die Ausprägung des in Frage stehenden Merkmals möglich ist
    • Ziel: relative Positionsbestimmung in Bezug zur Ausprägung des Merkmals bei anderen Personen (oder Sachen) oder in Bezug zu einem bestimmten Kriterium

--> Daher: psychometrische Testverfahren 


  • Geschichtliche Entwicklungen:
    1. Intelligenzprüfung (Intelligenz weiter gefasst als kognitive Leistung) als historisches Entstehungsfeld von Testverfahren
    2. Frühe Ansätze:
      • Rieger (1889): Entwurf zu einer allgemeinen Methode der Intelligenzprüfung
      • Ziehen (1897): Prinzipien und Methoden der Intelligenzprüfung à standardisierte Aufgaben/Items; Idee von Normalleistung
      • McKeen Cattell (1890): Prüfreihen zur Testung elementarer psychischer und psychophysischer Funktionen à statistische Weiterentwicklung
      • Kraeplin, Ebbinghaus und andere überhnehmen McKeen Cattells Grundsätze für die Erfassung höherer Funktionen (Ordnen, Lernen, etc.)
    3. Ab 1900 Bestreben „Intelligenz“ als Gesamtkonstrukt zu erfassen, statt psychischer Ersatzfunktionen, Wunsch der Quantifizierung à IQ, statistische Methoden zur Bestimmung „guter Aufgaben“:
      • Z.b, Binet/Simon: Testserie zur Auslese Minderbegabter: standardisierte Aufgabenreihen, Revision des Tests mit Ausschaltung ungeeigneter Aufgaben
      • Z.b. Stern: u.a. Einführung des IQ
      • Z.b. Spearman: mathematische Grundlagen
    4. Seit 1. Weltkrieg: Army-Alpha- und Army-Beta-Tests (alpha sprach-schriftlich, beta für Analphabeten)
      • Gruppentestung mit Paper-and-Pencil-Verfahren als ökonomische Form der Intelligenzprüfung
      • Entwicklung von Paralleltestformen
      • Thurstone: The Reliability and Validity of Tests à Basic rules
    5. Klassische Testtheorie
      • Gulliksen (1950): Systematisierung testtheoretischer Vorarbeiten
      • Rasch (1960): Probabilisitische Testtheorie


  • Anwendungsbereiche:
    1. Testverfahren haben sehr hohen Stellenwert in der psychologischen Diagnostik 
    2. Entsprechend vielfältig sind die Anwendungsbereiche: Leistungs- und Eignungsdiagnostik, pädagogischer Bereich, Arbeitspsychologie, Verkehrspsychologie …

 

 

Q:

Wie kann man Testverfahren klassifizieren?

A:
  • Klassifikation von Testverfahren:
    1. Nach Inhaltsbereich:
      • Leistungstests (Intelligenz, allgemeine Leistungstests, Entwicklungstests, Schultests, spezielle Fertigkeiten) vs. Persönlichkeitstests (spez. Pers.-Einstellungstests, Interessentests, klinische Testverfahren)
      • Cronbach: maximales vs. typisches Verhalten à Leistungstests erfassen maximales Verhalten, Persönlichkeitstests erfassen typisches Verhalten, also andere Eigenschaften als Intelligenz, wobei es kein besser/schlechter gibt


  1. Zusätzliche Unterscheidung bei Leistungstests: Schnelligkeitstests (Speedtests) vs. Niveautests (Powertests)
    • Schnelligkeitstests: Leicht zu lösende Aufgaben, die jeder bewältigen kann, Bearbeitung erfolgt mit Zeitbegrenzung à wesentlich für Erhebung der Leistungsfähigkeit ist Geschwindigkeit der Aufgabenlösung (z.B. Zahlenverbindungstests)
    • Niveautests: Keine oder sehr großzügige Zeitbegrenzung, Aufgaben nehmen im Laufe des Tests an Schwierigkeit zu und sind zum Ende hin so anspruchsvoll, dass nur wenige Personen alle Aufgaben vollständig lösen können à wesentlich für Erhebung der Leistungsfähigkeit ist Güte der Aufgabenlösung
    • Teilweise werden Power- und Speedanteile gemischt --> Powertests mit (engeren) Zeitbegrenzungen


  1. Weitere Unterscheidungskriterien:
    • Nach Bezugsmaßstab: normorientiert vs. kriteriumsorientiert à Quantifizierung im Bezug auf die Vergleichsgruppe vs. Referenzgruppe hat keine große Bedeutung, sondern kritische Grenzen (z.B. Depression)
    • Formale Kriterien: Materialien, computergestützt, Gruppe vs. Einzel
    • Nach Konstruktionsgrundlage: Klassische oder probabilistische Testtheorie
Q:

Klassische TT: Was bedeutet klassische Testtheorie?

A:
  • „Klassisch“:
    1. Da schon vor über 50 Jahren erstmals systematisch formuliert (Gullikson, 1950)
    2. Geht auf pragmatische Überlegungen hinsichtlich der Konstruktion von Tests zurück, die seit Beginn des 20. Jhdt. Entwickelt wurden
  • In Abgrenzung zu „modernen“ Testtheorien (Item-Response-Theorie; probabilistische Modelle)
  • Trotz aller (theoretischer) Kritik ist KTT nach wie vor sehr weit verbreitet
    1. Viele Tests wurden (und werden) auf der Grundlage der KTT konstruiert
    2. Tests haben sich in praktischer Anwendung bewährt
  • KTT orientiert sich an physikalischer Messung
    1. Reine Messfehlertheorie
    2. Keine Aussagen zu Zusammenhängen von psychischen Merkmalen und Testverhalten
    3. Keine Unterscheidung von latenten und manifesten Variablen


  • Axiomatik der KTT (Axiome = Festlegungen)
  • Kern der  KTT bilden eine Reihe von Axiomen:
    1. Axiome stellen nicht hinterfragte Grundannahmen dar
      • Bilden ein in sich logisches System
      • Nicht beweisbar, nur mehr oder weniger plausibel
    2. In der KTT beziehen sich Axiome auf die Eigenschaften des „wahren Werts“ (zu messender Wert) und des Messfehlers
    3. Die Axiome erlauben praktisch sinnvolle Ableitungen, die im Rahmen der Testkonstruktion nutzbar gemacht werden können 
Q:

Testkontruktion: Was beinhaltet die erste Phase der Testkonstruktion, die Planungsphase?

A:

Schritte der Testkonstruktion: 

 

1.Planungsphase

2.Aufgabenkonstruktion à Testitems 

3.Itemanalyse à abhängig vom Testmodell 

4.ErstellungderTestendformund Kontrolle der Testgütekriterien à bezieht sich auf fertigen Test 

5.Normierung

[Manualerstellung & Publikation; Testpflege(Revisionen, weitere Validierung)]

 

  • stellt keinen vollständig linearen Prozess dar: Es sind Rückkopplungsschleifen möglich


1. Planungsphase: 

  • Fragestellung
    1. Festlegung von Validitäts- und Geltungsbereich à Was will man erfassen? Art und Weise der Anwendung? 
    2. Psychologische Merkmalsanalyse
  • Struktur des Tests
    1. (Testlänge, Darbietungsform, Gruppe/Einzel, Ein-vs. mehrdimensionaler Test etc.)
  • Modellwahl/Konstruktionsstrategie
    1. (z.B. KTT vs. PTT; Art der Bestimmungv on Subskalen) à abhängig von der Zielsetzung des Tests 


  • Validitäs- und Geltungsbereich: 

 

  1. Geltungsbereich: Für wen soll das Testverfahren gültig sein? (z.B. Kinder/Jugendliche/Erwachsene…) à Für wen ist der Test gedacht? 
  2. Wesentlich für weitere Konstruktionsschritte 
    • Inhaltlich, z.B. Komplexität der Aufgaben und Instruktionen, Besonderheiten der Zielgruppe 
    • Methodisch, z.B. Stichprobenrekrutierung 


  1. Validitätsbereich: Welche inhaltlichen Aspekte soll das Verfahren umfassen, welche nicht? Zu welchem Zweck? 
    • z.B. Erfassung eines theoretischen Konstruktes vs. Grundlage für konkrete praktische Entscheidungen
    • Komplexes/umfängliches vs. eng umschriebenes Merkmal 
    • Zeitliche Stabilität des Merkmals (State vs. Trait)
    • Welche Validierungskriterien kann man nutzen?
    • Geht es um spezifische Kontexte? à z.B. Schulkontext 
    • Leistung vs. Persönlichkeit (max. vs. typisches Verhalten)
  2. Genaue Antworten oft erst nach ausführlicher Merkmalsanalyse möglich



  • Merkmalsanalyse: 
    1. Erarbeiten einer (Arbeits-)Definition des zu erhebenden Konstruktes
      • Sammlung und Analyse von Informationen zum Themenbereich
      • auch: Abgrenzung zu anderen Konstrukten à z.B. was ist Intelligenz nicht? 
    2. Strukturierung des Merkmals
      • Differenzierung von spezifischeren Dimensionen/ Verhaltenskategorien à z.B. sozial kompetentes Verhalten als komplexes Konstrukt mit vielen unabhängigen Konstrukten 
      • gewährleistet inhaltliche Vollständigkeit und Ausgewogenheit bei Itemkonstruktion à repräsentativer Itempool
    3. Je nachdem worum es geht, kann die Analyse mehr oder weniger stark an theoretischen Modellen zum Konstrukt orientiert sein und die Quellen können variieren
      • normalerweise einschlägige Theorien, empirische Arbeiten, Forschungsreviews usw.
      • Expertenbefragung à z.B. Erzieher bei Test für Kinder 
      • ggf. Interviews/Beobachtung einer Stichprobe der Zielpopulation
      • z.T. auch rein anforderungsbezogen --> bei Test für konkrete Tätigkeit 


Mehr Karteikarten anzeigen
Q:

Testkonstruktion: Was gehört des weiteren zum zweiten Schritt der Testkonstruktion, der Aufgabenkonstruktion?

A:

2.Aufgabenkonstruktion: 

 

  1. Aufgabenarten
    • Antwortformate (z.B. gebunden vs. frei) 
    • Reizvorlage (z.B. sprachlich, Bilder) 
  2. Auswahlstrategien 
  3. Itemformulierung und -gestaltung 



  • Items: Auswahlstrategien: 
    1. Übernahme aus vergleichbaren Verfahren
      • evtl. Übersetzungen
      • Operationalisierungen aus Forschungsliteratur
      • Probleme:
        • evtl. nicht alle Aspekte des Konstrukts repräsentiert
        • Angemessenheit für angestrebte Zielgruppe
    2. Eigenkonstruktion
      • Theoriegeleitet à aus der Merkmalsanalyse heraus, Frage der Operationalisierung 
      • intuitiv
      • Unterstützung durch Voruntersuchungen --> Ausprobieren von  Items in Voruntersuchungen, Feststellung von Zielgruppeneignung

 

  • Itemkonstruktion: 
    1. Bei Itemkonstruktion ist zu beachten, dass
      • Bezug zum Konstrukt gewahrt ist --> sich nicht verrennen (Beispiel Youtube Videos schauen) 
      • Konstrukt in seiner Breite repräsentiert ist

--> Grundlage: Merkmalsanalyse

  • keine systematischen Antwortverzerrungen auftreten --> Keine Antworten nahelegen z.B. Sind sie ein netter Mensch? (alle würden Ja sagen) 

 

  • erfordert angemessene Itemformulierung
  • ggf. Maßnahmen, um Antworttendenzen zu vermeiden (beides v.a. bei Persönlichkeitsfragebögen wichtig)



Q:

Testkonstruktion: Im zweiten Schritt der Testkonstruktion, was versteht man unter provisorischen Testentwürfen?

A:
  • Provisorischer Testentwurf: 
    1. Für den Zweck der weiteren Konstruktion muss eine vorläufige Fassung des Tests zusammengestellt werden, die möglichst weitgehend der endgültigen Version entspricht 
      • Erstellen einer Testanweisung (inkl. Spezial-anweisungen für verschiedene Aufgabenblöcke)
      • evtl. Gruppierung der Items
        • nach Spezialanweisung/Aufgabentyp
        • nach Schwierigkeit (bei Leistungstests stehen u.a. aus motivationalen Gründen leichte Aufgaben zu Beginn)
        • bei Leistungstests oft auch nach Inhalt (Subtests); bei Persönlichkeitsfragebögen eher gemischt, um Konsistenzeffekte zu vermeiden


  • Provisorischer Test: 
    1. Provisorischer Test wird von einer Konstruktionsstichprobe bearbeitet
      • Repräsentativität der Stichprobe
      • Dient v.a. der Generierung von Daten für weitere Konstruktionsschritte
      • Aber auch: Feedback der Probanden (Verständnisschwierigkeiten, Probleme mit Antwortformat etc.)
        • retrospektive Befragung
        • Verhaltensbeobachtung, evtl. mit gezielten Nachfragen im Anschluss an Testbearbeitung
        • Während der Testbearbeitung: Technik des lauten Denkens (Testdaten selbst können dann aber nicht verwendet werden!)
    2. Erprobungs-Ernstfall-Dilemma
      • Für Probanden der Konstruktionsstichprobe ist Test „bedeutungslos“ (keine persönlichen Konsequenzen)
  • Kann zu anderem Antwortverhalten führen
  • Bearbeitung des vorläufigen Tests soll der späteren Anwendungssituation möglichst ähnlich sein
    • z.B. Einstreuen in echte Testbatterie (aber: ethische Problematik)
    • Grundsätzlich: Optimizing vs. Satisficing


  • Zuordnung der Items zu Testskalen (Frage: Welches Item gehört auf welche Skala?): 
    1. Ziel der Aufgabenkonstruktion ist, dass das Konstrukt möglichst genau und in seiner Breite erfasst wird
    2. Welche Items gehören zu dem Konstrukt?
    3. Handelt es sich um ein mehrdimensionales Konstrukt?
  • Falls ja: Items in mehrere eindimensionale Subskalen zusammenfassen

 

  • Grundlegende Konstruktionsstrategien: 
    1. Es gibt einige prototypische Strategien, die eine Zuordnung von Items zu Skalen erlauben
      • rationale Strategie
      • intuitive Strategie
      • externale (kriteriumsorientierte) Strategie
      • internale (faktorenanalytische) Strategie
Q:

Testkonstruktion: Was sind Probleme der Faktoranalyse und was lässt sich generell zu den Konstruktionsstrategien anmerken?

A:
  • Probleme der faktoranalytischen Skalenkonstruktion: 
    1. In Reinform eine atheoretische Vorgehensweise
      • Warum resultieren bestimmte Merkmalsdimensionen?
      • Sind diese Dimensionen sinnvoll/vollständig?
    2. Es können nur Faktoren/Skalen extrahiert werden, die auch in Itempoolrepräsentiert sind
      • Dimensionen, die nur wenig/gar nicht in Items repräsentiert sind, werden „übersehen“
      • (Theoretische) Merkmalsanalyse bleibt von großer Bedeutung


  • Grundlegende Konstruktionsstrategien: 
    1. Es handelt sich um prototypische Strategien
    2. Kombinationen sind möglich und werden für gewöhnlich auch vorgenommen, z.B.
      • vorläufige Konstruktion per intuitiver Strategie mit anschließender faktorenanalytischer Verfeinerung
      • faktorenanalytische Konstruktion mit rational geleiteten Ergänzungen (z.B. FPI)
      • Kontrolle rationaler Konstruktion mit Hilfe empirischer Methoden

 

  • In Skalenzusammenstellung: 
    1. Items, die …
      • … aus theoretischen Gründen zusammengehören (rationale Strategien) …
      • … bezüglich eines externen Kriteriums gut trennen (kriteriumsorientierte Strategie) …
      • … auf den jeweiligen Faktoren hoch laden (faktorenanalytische Strategie)…,
      • … werden zu Subskalen zusammengefasst
    2. Jede der Subskalen soll im späteren Test eine Facette des komplexen Merkmals erfassen


  • Bestimmung der Skalenwerte: 
    1. Umpolung von Items
      • Bei der Ermittlung der Skalenwerte muss man darauf achten, dass die Itemwerte bei der Aufsummierung in die gleiche Richtung laufen
        • Items, die negativ laden bzw. das inhaltliche Gegenteil der Skala ausdrücken, müssen ggf. umgepolt werden, um in Richtung der Skala zu liegen
    2. Beispiel: Das Item „Ich bin am liebsten allein“ lädt negativ auf dem Faktor/der Skala „Extraversion“
      • hoher Wert bedeutet geringe Extraversion
      • Item wird umgepolt, d.h. Antwortformat „1-2-3-4“ wird als „4-3-2-1“ gewertet
    3. Nach der Skalenbildung müssen für weitere Analysen Skalenwerte ermittelt werden
    4. verschiedene Möglichkeiten
      • einfache Aufsummierung der Items
      • gewichtete Skalenwerte
        • Items können je nach Bedeutung für Skala gewichtet werden (z.B. per Faktorladung)
    5. Ermittlung muss so erfolgen wie sie für spätere Auswertung vorgesehen ist
      • bei händischer Auswertung meist einfache Summe

 

Q:

Testkonstruktion: Was bedeutet Aufgabenrevision (3. Konstruktionsschritt, Itemanalyse/Sleektion)?

A:
  • Ggf. kann es sinnvoll oder notwendig sein, Aufgaben, deren Kennwerte unzureichend sind, zu revidieren, um sie zu erhalten
  • Gründe für Aufgabenrevision
    1. zu wenige ausreichend gute Items, um eine vollständige Skala zu erstellen
    2. Erhalten von Items mit besonders hoher inhaltlicher Relevanz
    3. Analysedaten legen Verbesserungspotential einer Aufgabe nahe
    4. vollständige Neuformulierung von Aufgaben
    5. teilweise Veränderung (z.B. Veränderung der Distraktoren bei MC-Aufgaben)
    6. Revision erfolgt nach Möglichkeit unter Nutzung der Analysedaten bzw. explizitem Feedback
  • Bei umfangreichen Revisionen muss die Itemanalyse erneut durchgeführt werden
  • Bei nur minimalen Revisionen kann ggf. darauf verzichtet werden und direkt zur Prüfung der Testendform übergegangen werden
Q:

Testkonstruktion: Was beinhaltet der vierte Schritt der Testkonstruktion?

A:

Schritte der Testkonstruktion

 

  1. Planungsphase 
  2. Aufgabenkonstruktion
  3. Itemanalyse
  4. Erstellung und Prüfung der Testendform 
  5. Normierung 

 


Bestimmung der Testgütekriterien: 

 

  • Auf Basis dieser Testendform werden in einem weiteren Konstruktionsschritt, die Testgütekriterien ermittelt
    1. teilweise können Testgütekriterien auch schon mittels der vorliegenden Daten aus früheren Konstruktionsschritten abgeschätzt werden
    2. für die dezidierte Beurteilung der Gütekriterien sollte aber eine neue, repräsentative Konstruktionsstichprobe gezogen werden, die die Testendform bearbeitet
  • Bestimmung von Testgütekriterien
    1. Objektivität
    2. Reliabilität
    3. Validität


Objektivität: 

 

  • Unabhängigkeit der Testergebnisse vom Untersucher
    1. „Ein Test ist dann objektiv, wenn er dasjenige Merkmal das er misst, unabhängig von Testleiter, Testauswerter und von der Ergebnisinterpretation misst.“

 

  • Objektivität lässt sich je nach Stelle im (test)diagnostischen Prozess untergliedern:
    1. Durchführungsobjektivität  (Testleiterunabhängigkeit)
    2. Auswertungsobjektivität (Verrechnungssicherheit)
    3. Interpretationsobjektivität (Interpretationseindeutigkeit)
  • Überprüfbarkeit der Durchführungsobjektivität
    1. mehrere Testleiter (TL) können gleiche Personen zu verschiedenen Zeitpunkten testen
    2. Probleme:
      • auch andere Bedingungen (außer TL) können mehr oder weniger variieren
      • auch bei gleichem TL ergeben sich mehr oder weniger unterschiedliche Ergebnisse (Einfluss der Reliabilität)
  • hohe Standardisierung der Durchführung reduziert TL-Effekte
    1. aber dennoch z.B. Geschlechtseffekt etc. möglich
  • Auswertungs- und Interpretationsobjektivität einfacher zu prüfen (da erst nach Testverhalten)
    1. Auswertungsobjektivität abhängig von „Freiheit“ der Antworten und der Reglementierung bei der Beurteilung der Testreaktionen
    2. Interpretationsobjektivität kann durch Normierung sichergestellt werden
  • Häufig erfolgt keine explizite Bestimmung der Objektivität, sondern sie wird durch bestimmte Vorgaben in der Testanwendung gesichert (Standardisierung, Normierung)


Q:

Testkonstruktion: Wie kann man die Methoden zur Reliabilitätsbestimmung miteinander vergleichen?

A:
  • Vergleich der Methoden der Reliabilitätsbestimmungen: 
    1. Aufwand/Zeitpunkt der Reliabilitätsprüfung
      • Wiederholungsmethoden (Retest/Paralleltest-Reliabilität) sind aufwendiger
      • Konsistenzmethoden ohne weitere Erhebung direkt im Anschluss an die Aufgabenanalyse möglich 
      • à Konsistenz/Split-Half-Reliabilität sollte immer geprüft werden
    2. Praktische Reliabilität vs. Messgenauigkeit
      • bei Wiederholungsmethoden gehen auch andere Einflüsse (Testumgebung etc.) ein (praktische Rel.)
      • Konsistenzmethoden erfassen nur Mess-genauigkeit(instrumentelle Reliabilität)



  • Bewertung von Reliabilitätskennwerten: 
    1. Grobe Faustregeln
      • ab rtt= .50 à für Forschungsinstrumente ausreichend
      • für individuelle Urteile: rtt ≥ .70
      • für hochstandardisierte Tests werden aber in der Regel höhere Koeffizienten gefordert:
      • Konsistenz α ≥ .90
      • Parallel-/Retest rtt ≥ .80


  • Bewertung von Reliabilitätskennwerten: 
    1. Faktoren, die bei der Bewertung der Reliabilität berücksichtigt werden sollten
      • Art des zu erfassenden Merkmals & Vergleich mit verfügbaren Verfahren zu diesem Merkmal
      • Anwendungszwecke und -bedingungen, z.B.
        • Individual-vs. Kollektivdiagnostik
        • Screening-Verfahren vs. umfangreiches Testverfahren
        • Kosten-Nutzen-Erwägungen
    2. Art der Reliabilitätsbestimmung in Bezug zu Test-und Merkmalseigenschaften (z.B. Homogenität der Items; zeitl. Stabilität des Merkmals)
    3. Im Zusammenspiel mit Objektivität und Validität

 

Q:

Testkonstruktion: Welche Rolle spielt die Validität als Testgütekriterium innerhalb des vierten Konstruktionsschritts?

A:

Validität 

 

 

 

  •  „Ein Test gilt dann als valide (‚gültig‘), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes“
  • Misst der Test was er zu messen vorgibt?
  • Zentrales Testgütekriterium, das Objektivität und Reliabilität übergeordnet ist
  • 3 grundlegende Validitätsarten
    1. Inhaltliche Validität
    2. Kriterienbezogene Validität
    3. Konstruktvalidität


  • Inhaltliche Validität: 
    1. auch: „logische Validität“, „facevalidity“, „Augenscheinvalidität“
    2. Grundfrage: Repräsentieren die Items logisch-inhaltlich das zu erfassende Konstrukt?
      • Es erfolgt also ein Repräsentationsschluss
      • Letztlich geht es um die Möglichkeit, das Testergebnis über die konkreten Aufgaben hinaus auf das Universum möglicher Aufgaben zu verallgemeinern
      • Repräsentationsschluss gilt v.a. für operational definierte Merkmale (Aufgaben entsprechen direkt dem zu messenden Konstrukt)
      • Für theoretisch definierte Konstrukte bezieht sich Inhaltsvalidität auch darauf, inwieweit unterschiedliche Antworten mit Hilfe des betreffenden Konstruktes schlüssig erklärt werden können
    3. Beurteilung erfolgt
      • A )auf Itemebene (Ist Item Teil der Gesamtheit interessierender Items?)
      • b) auf Ebene des Gesamttests (Stellen Items eine repräsentative Auswahl der Gesamtheit der interessierenden Items dar?)
    4. In der Regel erfolgt keine numerische Bestimmung der Inhaltsvalidität
    5. Gefahr der Übergeneralisierung
    6. Gefahr mangelnder Objektivität
    7. -->  Objektivierung durch Beurteilung der Inhaltsvalidität durch unabhängige Experten


  • Kriterienbezogene Validität
    1. Von zentraler Bedeutung, wenn Test als Grundlage für praktische Entscheidungen dient
    2. Idee: Konstrukt wird anhand eines Kriteriums erfasst à Korrelation des Tests mit dem Kriterium (rtc)
    3. Beispiele:
      • Schuleignungstest à Schulnote (Kriterium)
      • Depressionsinventar à klinische Diagnose Depression 
      • Test zur Rückfallgefährdung à erneute Straftaten 
    4. Unterscheidung nach Art der Kriterien: 
      • Vorhersage-vs. Übereinstimmungsvalidität
      • innere vs. äußere kriterienbezogene Validität
        • innere: anderes („etabliertes“) Testverfahren, das das gleiche Konstrukt erfasst
        • äußere: externe Maße wie Schulnoten, Arbeitsleistung etc.; auch z.B. Schätzurteile
    5. Tests haben im Prinzip mehrere Validitäten (je nach Kriterium unterscheidet sich rtc)

 

VL Testtheorie

Erstelle und finde Lernmaterialien auf StudySmarter.

Greife kostenlos auf tausende geteilte Karteikarten, Zusammenfassungen, Altklausuren und mehr zu.

Jetzt loslegen

Das sind die beliebtesten StudySmarter Kurse für deinen Studiengang VL Testtheorie an der Universität Erlangen-Nürnberg

Für deinen Studiengang VL Testtheorie an der Universität Erlangen-Nürnberg gibt es bereits viele Kurse, die von deinen Kommilitonen auf StudySmarter erstellt wurden. Karteikarten, Zusammenfassungen, Altklausuren, Übungsaufgaben und mehr warten auf dich!

Das sind die beliebtesten VL Testtheorie Kurse im gesamten StudySmarter Universum

Testtheorie

Albert-Ludwigs-Universität Freiburg

Zum Kurs
Testtheorie

Universität zu Lübeck

Zum Kurs
Testtheorie

Universität Ulm

Zum Kurs

Die all-in-one Lernapp für Studierende

Greife auf Millionen geteilter Lernmaterialien der StudySmarter Community zu
Kostenlos anmelden VL Testtheorie
Erstelle Karteikarten und Zusammenfassungen mit den StudySmarter Tools
Kostenlos loslegen VL Testtheorie