Testtheorie und Testkonstruktion

Kapitelübersicht


Kapitel 1

Grundfragen der Testtheorie und Testkonstruktion


Überblick

Eine wesentliche Aufgabe der psychologischen Diagnostik besteht darin, Methoden zur Erfassung von psychologischen Merkmalen zu entwickeln, die wissenschaftlichen Qualitätsstandards genügen.Die Hauptgütekriterien, nach denen sich Erfassungsmethoden bewerten lassen, sind die Validität, Reliabilität und Objektivität. Validität ist gegeben, wenn Schlüsse auf das zu erfassende Merkmal,die aufgrund der Messungen mit einem Erhebungsinstrumentgetroffen werden, gültig sind. Die Reliabilität bezeichnet die Zuverlässigkeit,mit der ein Merkmal erfasst wird. Hohe Reliabilität liegt vor, wenn der Einfluss des Messfehlers gering ist. Objektivität ist gegeben, wenn das Ergebnis der Messung nicht von der Person abhängt, die die Untersuchung durchgeführt hat.

Psychologische Messungen ähneln in vielerlei Hinsicht physikalischen Messungen, unterscheiden sich von diesen aber vor allem darin, dass (1) es bei der Erfassung psychologischer Merkmale keine allgemein akzeptierten Vergleichsstandards gibt, die man zur Eichung von Messinstrumenten heranziehen könnte, und dass (2) das interessierende Merkmal anhand eines einzelnen Messvorgangs häufig nur sehr viel gröber gemessen werden kann, als dies bei physikalischen Messungen typischerweise der Fall ist.

Zentrale Fragen der Testkonstruktion beziehen sich darauf, ob verschiedene Aufgaben dasselbe Merkmal erfassen, mit welcher Präzision dies geschieht und wie eine gewünschte Präzision sichergestellt werden kann. Hierzu werden mathematische Modelle benötigt, die im Rahmen der Psychometrie entwickelt werden. Ein Beispiel eines psychometrischen Modells für dichotome Antwortvariablen ist das Rasch-Modell, in dem die Lösungswahrscheinlichkeit eines Items als eine Funktion der latenten Merkmalsausprägung einer Person und der Itemschwierigkeit betrachtet wird.Ein solches latentes Merkmal wird auch Konstrukt genannt. Die beobachtbaren Reaktionen stellen Ausprägungen von beobachtbaren (manifesten) Variablen dar. Ein psychologischer Test besteht nach Krauth (1995) aus einer Anzahl von manifesten und latenten Variablen und einer Vorschrift, die festlegt, wie den verschiedenen Antwortmustern der manifesten Variablen Ausprägungen der latenten Variablen zugeordnet werden.

Psychometrische Modelle lassen sich nach der Art der manifesten und der latenten Variablen klassifizieren. Sie unterscheiden sich in Bezug auf die spezifischen Annahmen über deren Zusammenhang. Aus diesen Annahmen sollen sich testbare Konsequenzen ableiten lassen, um die Gültigkeit der Modelle zu überprüfen.

PDF-Kapitelübersicht 1Initiates file download



Kapitel 2

Wesentliche Schritte der Konstruktion psychologischer Tests


Überblick

Die Konstruktion eines psychologischen Tests lässt sich in folgende acht Schritte gliedern: (1) Festlegung des zu erfassenden Konstrukts, (2) Erstellung eines Itempools, (3) Auswahl eines Antwortformats, (4) Itemanalyse und -auswahl, (5) Testanalyse, (6) Skalierung und Normierung, (7) Testdokumentation und (8) weitere Untersuchungen zur Güte des Verfahrens und die Testrevision. Die Testkonstruktion orientiert sich hierbei an mehreren Gütekriterien: Objektivität, Reliabilität, Validität, Skalierung, Normierung, Testökonomie, Nützlichkeit, Zumutbarkeit, Unverfälschbarkeit und Fairness.

Die Gütekriterien kommen bei den einzelnen Schritten unterschiedlich stark zum Tragen. Das zentrale Gütekriterium ist die Validität. Unter Validität versteht man das Ausmaß, mit dem Schlüsse und Handlungen, die auf Testwerten basieren, gerechtfertigt sind. Ziel der Testentwicklung ist die Sicherstellung der Konstruktvalidität. Die Konstruktvalidität bezieht sich auf die Frage, inwieweit die Testwerte im Sinne des zu erfassenden Konstrukts interpretiert werden können. Die Untersuchung der Konstruktvalidität stellt ein umfassendes Forschungsprogramm dar. Um die Konstruktvalidität eines Tests zu sichern, muss nachgewiesen werden, dass die Testwerte den Erwartungen folgen, die man aus theoretischen Überlegungen zu dem Konstrukt herleiten kann. In Bezug auf die Konstruktvalidität lassen sich verschiedene Facetten unterscheiden (konvergente Validität, diskriminante Validität, Inhaltsvalidität, Kriteriumsvalidität, Augenscheinvalidität). Untersuchungen zur Konstruktvalidität sollten auf der Grundlage eines nomologischen Netzwerks durchgeführt werden. Unter einem nomologischen Netzwerk versteht man ein System miteinander verknüpfter Sätze, die sich auf den Zusammenhang zwischen beobachtbaren Variablen untereinander, zwischen Konstrukten und beobachtbaren Variablen oder zwischen mehreren Konstrukten beziehen können. Bei der Testentwicklung muss darauf geachtet werden, dass die Konstruktfacetten durch die Items nicht unterrepräsentiert werden und der Testwert nicht von konstruktirrelevanten Einflüssen abhängt.

 Bei der Testkonstruktion lassen sich im Allgemeinen drei Klassen von Strategien unterscheiden. (1) Die rationale Testkonstruktion orientiert sich an der Konstruktvalidität; die Items werden anhand theoretischer Überlegungen zum Konstrukt konstruiert. Sie vollzieht sich in vier Schritten: Festlegen einer Konstruktkarte, Konstruktion von Items, Kodierung von Antworten, Auswahl eines Messmodells. (2) Kriteriumsorientierte und induktive Testkonstruktionsstrategien orientieren sich an der Inhaltsvalidität eines Tests, die dann gegeben ist, wenn ein Test das psychologische Konstrukt repräsentativ erfasst. Kann die Inhaltsvalidität eines Tests nicht durch eine Zufallsauswahl von Items aus einer Grundgesamtheit von Items sichergestellt werden, so wird häufig auf die Beurteilung von Experten zurückgegriffen. (3) Externale Testkonstruktionsprinzipien orientieren sich an der Kriteriumsvalidität, die dann gegeben ist, wenn anhand des Testergebnisses ein Außenkriterium vorhergesagt werden kann. Wird das Kriterium zur gleichen Zeit erhoben, spricht man von konkurrenter Validität, wird es zeitlich später erhoben, so nennt man die Kriteriumsvalidität prädiktive Validität, prognostische Validität oder Vorhersagevalidität. Die Auswahl eines Antwortformats wird durch die Sicherstellung hoher Objektivität und Präzision geleitet. An die Erstellung eines Itempools sollte sich ein Prätest anschließen, in dessen Rahmen Expertenmeinungen eingeholt und Prozessanalysen durchgeführt werden sollten. Die endgültige Itemauswahl orientiert sich an der Passung der Items zum zugrundegelegten psychometrischen Modell, ihrem Beitrag zur Schätzgenauigkeit, der Ökonomie des Tests, der Zumutbarkeit des Tests, der Testfairness und der Unverfälschbarkeit. An die Itemselektion schließt sich die Testanalyse sowie die Skalierung und Normierung des Tests an. Im Rahmen der Normierung und Skalierung unterscheidet man zwischen einer normorientierten Skalierung und einer kriteriumsorientierten Skalierung. Die Testdokumentation und weitere Untersuchungen zur Güte werden fortlaufend durchgeführt.


PDF-Kapitelübersicht 2Initiates file download



Kapitel 3

Itemkonstruktion


Überblick

Bei der Konstruktion von Items sind verschiedene Konstruktionsprinzipien zu unterscheiden, die sich zum einen auf den Itemstamm, zum anderen auf das Antwortformat beziehen. Diese hängen u. a. auch davon ab, ob es sich um einen Speed- oder einen Powertest handelt. Bei einem Speedtest werden typischerweise leichte Items vorgelegt, die mit einer Zeitbeschränkung bearbeitet werden sollen (Erfassung der Leistungsgeschwindigkeit). Bei einem Powertest, der der Erfassung des Leistungsniveaus dient, werden typischerweise Items unterschiedlicher Schwierigkeit ohne Zeitbeschränkung bearbeitet. Bei der Itemformulierung müssen Konversationsmaximen beachtet werden, bei denen es sich um implizite Normen für ein kooperatives Gespräch handelt (Qualitätsmaxime, Quantitätsmaxime, Relevanzmaxime, Klarheitsmaxime). Die Anordnung der Items muss mögliche Reihenfolgeeffekte berücksichtigen. Hierzu zählen Anker-, Konsistenz-, Assimilations-, Kontrast-, Salienz-, Priming- und Subtraktionseffekte. Bezüglich der Antwortformate lassen sich freie (offene) Antwortformate von gebundenen Antwortformaten unterscheiden. Zu freien Antwortformaten zählen z. B. Kurzaufsatzaufgaben und Ergänzungsaufgaben. Während bei freien Antwortformaten keine Antwortalternative vorgegeben wird, sind die Antwortvorgaben bei gebundenen Antwortformaten strukturiert. Hierzu zählen Ordnungsaufgaben (Zuordnungsaufgaben, Umordnungsaufgaben) sowie Auswahlaufgaben (ungeordnete und geordnete Antwortaufgaben). Zu Auswahlaufgaben zählen z. B. Multiple-Choice-Tests, bei der eine richtige Lösung mit verschiedenen Distraktoren dargeboten wird. Allgemein empfohlen werden zwei Distraktoren. Bei der Benennung der Antwortkategorien muss beachtet werden, dass Personen die Benennung der Endpunkte als Orientierungshilfe heranziehen können.


PDF-Kapitelübersicht 3Initiates file download



Kapitel 4

Eindimensionale Modelle für dichotome Antwortvariablen


Überblick

In diesem Kapitel wurde dargelegt, wie psychometrische Analysen für dichotome Antwortvariablen durchgeführt werden können. Eine solche Item- und Testanalyse vollzieht sich in mehreren Schritten. Zu Beginn einer Item- und Testanalyse sollte die statistische Beschreibung der Items, ihrer Schwierigkeitskoeffizienten (Mittelwerte), ihrer Varianzen sowie ihrer Zusammenhänge stehen. Bei dichotomen Variablen entspricht der Mittelwert dem relativen Anteil der Personen, die die Kategorie 1 gewählt haben, wenn die Kategorien der Variablen mit den Werten 0 und 1 kodiert werden. Als Zusammenhangsmaß bei dichotomen Variablen bietet sich Yules Q an, ein Korrelationsmaß, dem die Idee zugrunde liegt, dass sich die dichotomen Variablen auf einer Dimension anordnen lassen. Sollten diese Analysen zeigen, dass die Zusammenhänge der Variablen nicht bedeutsam von 0 verschieden sind, so ist es nicht sinnvoll, die Variablen einer weiteren testtheoretischen Analyse zu unterziehen.

 An die Beschreibung der Daten schließt sich die Analyse der Daten mit einem testtheoretischen Modell an. In diesem Kapitel wurden vier testtheoretische Modelle beschrieben. Das restriktivste Modell ist das Modell der Guttman-Skala, bei dem man davon ausgeht, dass sich alle Variablen auf einer Dimension anordnen lassen und Messfehler ausgeschlossen sind. Eine Erweiterung des Guttman- Modells, bei dem Messfehler zugelassen werden, ist das Rasch- Modell. Im Rasch-Modell ist die Antwortwahrscheinlichkeit eine Funktion aus der Differenz eines Personenwertes und eines Itemparameters (Schwierigkeitsparameter). Darüber hinaus wird im Rasch-Modell angenommen, dass die Itemcharakteristiken parallel verlaufen und einer logistischen Funktion folgen. Schließlich wird im Rasch-Modell die Annahme der bedingten stochastischen Unabhängigkeit getroffen, der zufolge die latente Variable alle Zusammenhänge der beobachtbaren Variablen erklärt.

Das Rasch-Modell hat viele positive Eigenschaften. Eine dieser positiven Eigenschaften ist die spezifische Objektivität, der zufolge der Vergleich zweier Personen nicht vom Messinstrument abhängt, anhand dessen der Vergleich getroffen wird, und der Vergleich zweier Messinstrumente nicht von der Person abhängt, anhand derer die Items verglichen werden. Für das Rasch-Modell gibt es verschiedene Methoden der Parameterschätzung, die unter anderem auf der Eigenschaft des Modells aufbauen, dass die Anzahl der gelösten Aufgaben eine suffiziente Statistik für den latenten Personenwert darstellt. Als Schätzmethode für die Itemparameter bietet sich die bedingte Maximum-Likelihood-Schätzung an. Die Schätzung der Personenwerte kann anhand der unbedingten Maximum- Likelihood-Schätzung und der gewichteten Maximum- Likelihood-Schätzung erfolgen. Darüber hinaus gibt es Bayes-Schätzmethoden. Die Genauigkeit der Parameterschätzung hängt für die Personenwerte von der Anzahl der gelösten Aufgaben, für die Itemparameter von der Anzahl der Personen ab.

Um die geschätzten Größen eines Modells interpretieren zu können, ist es notwendig, die Modellgültigkeit zu überprüfen. Für das Rasch-Modell gibt es eine Reihe von Modellgeltungstests. So kann die Gleichheit der Itemparameter in Subpopulationen anhand eines grafischen Modelltests, anhand des bedingten Likelihood-Quotienten- Tests, anhand des Wald-Tests und anhand der Mischverteilungs- Rasch-Analyse untersucht werden. Die Überprüfung des Modells kann auch auf der Wahrscheinlichkeitsverteilung der Antwortmuster aufbauen. Hierbei wird getestet, ob die vom Modell implizierten Häufigkeiten der Antwortmuster den beobachteten Häufigkeiten entsprechen. Die globale Modellgültigkeit kann ebenso anhand des Likelihood-Quotienten-Tests überprüft werden. Mit diesem wird die Likelihood des Rasch-Modells mit der des saturierten Modells verglichen. Schließlich erlaubt der Martin-Löf-Test zu prüfen, ob die Personenwerte in reduzierten Rasch-Modellen gleich sind. Anhand von Residualmaßen können einzelne Personen und Items identifiziert werden, die nicht modellkonform sind.

Neben dem Rasch-Modell wurde das zweiparametrische logistische Modell (Birnbaum-Modell) behandelt, das neben einem Schwierigkeitsparameter auch einen Diskriminationsparameter enthält. Eine Erweiterung des Birnbaum-Modells stellt das dreiparametrische logistische Modell dar, das darüber hinaus einen Pseudo- Rate-Parameter enthält. Alle drei probabilistischen Modelle unterscheiden sich somit in der Anzahl der Itemparameter. Je mehr Itemparameter ein Modell aufweist, umso größer sind die Anforderungen an die Stichprobengröße. Die Auswahl von Items kann im Rahmen der hier vorgestellten Modelle nach folgendem Schema erfolgen: Zunächst muss ein Satz von modellkonformen Items erstellt werden. Hierzu können die Modellgütekoeffizienten und die Maße zur Aufdeckung einzelner abweichender Items und Personen herangezogen werden. Aus einem Satz modellkonformer Items können Items dann anhand ihres Beitrags zur Testinformationsfunktion so zusammengestellt werden, dass sie einen intendierten Verlauf der Testinformationsfunktion und somit die Schätzgenauigkeit der Personenwerte sicherstellen. Dies ist auch die Grundlage für das sogenannte adaptive Testen, bei dem Items für eine Person sukzessive so ausgewählt werden, dass sie einen optimalen Beitrag zur Schätzgenauigkeit des Personenwertes erlauben. Neben modellbasierten Ansätzen gibt es auch Ansätze, die kein spezifisches Modell voraussetzen. So kann z. B. der Trennschärfekoeffizient als Maß des Zusammenhangs zwischen einem Item und einer Testwertvariablen bestimmt werden. Hierzu kann auf die biseriale und die punktbiseriale Korrelation zurückgegriffen werden.

PDF-Kapitelübersicht 4Initiates file download



Kapitel 5

Eindimensionale Modelle für Antwortvariablen mit geordneten Antwortkategorien


Überblick

In diesem Kapitel wurden psychometrische Modelle für Variablen mit geordneten Antwortkategorien vorgestellt. Jede psychometrische Analyse sollte damit beginnen, die Verteilungen und Zusammenhänge der Items zu beschreiben. Als Lagemaße bieten sich der Median und der Mittelwert an, als Streuungsmaß kann der relative Informationsgehalt bestimmt werden. Der γ-Koeffizient stellt ein geeignetes Zusammenhangsmaß dar. Als zentrales psychometrisches Modell für Variablen mit geordneten Antwortkategorien wurden das Partial-Credit-Modell sowie seine Spezialfälle und Erweiterungen vorgestellt. Das Partial-Credit-Modell überträgt die Ideen des Rasch-Modells auf die Schwellenwahrscheinlichkeiten. Eine Schwellenwahrscheinlichkeit ist die Wahrscheinlichkeit, eine Kategorie zu wählen, geteilt durch die Wahrscheinlichkeit entweder diese Kategorie oder die Kategorie direkt darunter zu wählen. Die Schwellenwahrscheinlichkeit einer Person hängt von der Differenz aus ihrem latenten Merkmalswert und einem Schwellenparameter ab. Das Partial-Credit-Modell weist daher viele wesentliche Eigenschaften des Rasch-Modells auf (z. B. spezifische Objektivität, Existenz suffizienter Statistiken). Die Abhängigkeit der bedingten Antwortwahrscheinlichkeit von der latenten Variablen wird durch die Kategoriencharakteristik beschrieben. Die Kategoriencharakteristiken schneiden sich an der Stelle der Schwellenparameter. Die Itemcharakteristik stellt die Abhängigkeit der bedingten Erwartung von der latenten Variablen dar. Sind zwei Schwellenparameter nicht geordnet, so zeigt dies an, dass eine Kategorie gemieden wird und an keiner Stelle der latenten Variablen eine größere bedingte Antwortwahrscheinlichkeit als die anderen Kategorien aufweist. Der Lokalisationsparameter eines Items ist der Mittelwert der Schwellenparameter des Items. Wie beim Rasch-Modell wird die Annahme der bedingten (lokalen) stochastischen Unabhängigkeit getroffen. Beim Partial-Credit-Modell können dieselben Schätz- und Testmethoden sowie dieselben Itemselektionsstrategien wie beim Rasch-Modell zum Einsatz kommen. Spezialfälle des Partial-Credit-Modells sind das Ratingskalenmodell, das Äquidistanzmodell und das Dispersionsmodell. Eine Erweiterung stellt das generalisierte Partial-Credit-Modell dar, in dem es einen itemspezifischen Diskriminationsparameter gibt.


PDF-Kapitelübersicht 5Initiates file download



Kapitel 6

Eindimensionale Modelle für metrische Antwortvariablen


Überblick

 

In diesem Kapitel haben wir die psychometrischen Grundlagen der Analyse von metrischen Antwortvariablen behandelt. Zentrale Zusammenhangsmaße für metrische Antwortvariablen sind die Kovarianz und die Korrelation. Psychometrische Modelle für metrische Antwortvariablen zielen darauf ab, die Kovarianz zwischen den beobachtbaren Antwortvariablen zu erklären. Diese Modelle basieren auf den Grundlagen der Klassischen Testtheorie, in der eine beobachtbare Antwortvariable in eine True-Score-Variable und eine Messfehlervariable additiv zerlegt wird. Die Werte der True- Score-Variablen sind die sog. wahren Werte. Der wahre Wert einer Person ist ihr personenbedingter Erwartungswert für die betrachtete metrische Antwortvariable. Aus der Definition des wahren Wertes als personenbedingtem Erwartungswert folgen ohne weitere Zusatzannahmen die Eigenschaften der Messfehler- und True-Score- Variablen. Die wichtigsten Eigenschaften beziehen sich darauf, dass der bedingte Erwartungswert der Messfehler – gegeben eine True-Score-Variable – gleich 0 ist, dass der unbedingte Erwartungswert des Messfehlers gleich 0 ist, dass die Messfehlervariablen und die True-Score-Variablen unkorreliert sind und dass sich die Varianz einer beobachtbaren Variablen additiv zerlegen lässt in die Varianz der True-Score-Variablen und die Varianz der Fehlervariablen. Hierauf aufbauend wird die Reliabilität als Verhältnis der Varianz der True-Score-Variablen zur Varianz der beobachtbaren Variablen definiert.

Zur Bestimmung des wahren Wertes kann zum einen der beobachtete Testwert einer Person herangezogen werden, zum anderen kann er auch regressionsanalytisch bestimmt werden. In beiden Fällen wird die Reliabilität der beobachtbaren Variablen benötigt. Die Reliabilität lässt sich nur bestimmen, wenn ein Konstrukt wiederholt erfasst wurde und die beobachtbaren Variablen spezifische Modellannahmen erfüllen.

Es wurden fünf eindimensionale Modelle der Klassischen Testtheorie vorgestellt, die sich in ihren Restriktionen unterscheiden. Das am wenigsten restriktive eindimensionale Modell ist das Modell τ-kongenerischer Variablen, in dem sich die Items in ihren Leichtigkeits- und Diskriminationsparametern sowie in ihren Fehlervarianzen unterscheiden dürfen. Das Modell essenziell τ-äquivalenter Variablen nimmt hingegen an, dass alle Diskriminationsparameter gleich sind, das Modell τ-äquivalenter Variablen nimmt zusätzlich die Gleichheit der Leichtigkeitsparameter an. Das Modell essenziell τ-paralleler Variablen geht von der Gleichheit der Diskriminationsparameter und der Fehlervarianzen aus. Die Variablen dürfen sich jedoch in ihren Leichtigkeitsparametern unterscheiden. Das Modell τ-paralleler Variablen setzt voraus, dass sich alle beobachtbaren Antwortvariablen in ihren Leichtigkeitsparametern, ihren Diskriminationsparametern und in ihren Fehlervarianzen gleichen. Die beobachtbaren Variablen sind somit austauschbar. In allen Modellen wird zusätzlich angenommen, dass die Fehlervariablen unkorreliert sind.

Die Parameter dieser Modelle können im Rahmen von Schätzverfahren für die konfirmatorische Faktorenanalyse geschätzt werden. Hierauf aufbauend können auch Methoden der Modellgeltungsüberprüfung zur Anwendung kommen. Die Grundidee dieser Schätzverfahren besteht darin, dass die Parameter so geschätzt werden, dass die vom Modell implizierten Erwartungswerte, Varianzen und Kovarianzen der beobachtbaren Variablen so wenig wie nur möglich von den beobachteten Mittelwerten, Varianzen undKovarianzen der Variablen abweichen, wobei die Annahmen des Modells erfüllt werden müssen. Zur Schätzung der latenten Personenwerte und entsprechender Konfidenzintervalle kann zum einen auf die Maximum-Likelihood-Schätzung, zum anderen auf die Bayes-Modal-Schätzung zurückgegriffen werden. Bei der Maximum- Likelihood-Schätzung entspricht der Standardfehler dem Kehrwert aus der Wurzel der Informationsfunktion. Die Bayes-Modal-Schätzung entspricht der regressionsanalytischen Schätzung der latenten Personenwerte und der Standardfehler entspricht dem Standardschätzfehler in dieser Regressionsanalyse. Im Modell essenziell τ-paralleler Variablen sind die geschätzten latenten Personenwerte lineare Funktionen der mittleren Item-Antworten der Personen. Der Bayes-Modal-Schätzer weist im Vergleich zum Maximum-Likelihood-Schätzer eine geringere Varianz auf, allerdings führt er im Gegensatz zu dem Maximum-Likelihood-Schätzer zu Schätzwerten, die eine Verzerrung aufweisen.

Die verschiedenen Modelle können anhand von χ2-Differenztests miteinander verglichen werden. Anhand solcher Vergleiche lässt sich das am besten passende Modell auswählen, das einerseits am restriktivsten ist, andererseits keine signifikant schlechtere Modellanpassungsgüte als das weniger restriktive Modell aufweist. Im Rahmen dieser Modelle können die Reliabilitäten der einzelnen Antwortvariablen geschätzt werden. Es kann darüber hinaus die Reliabilität der Summenvariablen bestimmt werden. Hierzu greift man beim Modell τ-kongenerischer Variablen auf McDonalds ω zurück. Im Falle des Modells essenziell τ-äquivalenter Variablen entspricht die Reliabilität der Summenvariablen Cronbachs α, im Falle der essenziellen τ-Parallelität der Formel von Spearman und Brown. Da die Modelle ineinander geschachtelt sind, kann zur Bestimmung der Reliabilität des Gesamttests auch für ein restriktiveres Modell der Gesamttest-Reliabilitätskoeffizient, der für ein weniger restriktives Modell entwickelt wurde, berechnet werden. So führen z. B. bei einem Modell essenziell τ-paralleler Variablen alle drei Koeffizienten zum identischen Ergebnis. Im Rahmen des Modells essenziell τ-paralleler Variablen kann die Reliabilität einer einzelnen beobachtbaren Variablen auch anhand der Korrelation dieser Variablen mit einer beliebigen anderen beobachtbaren Variablen geschätzt werden.

Aus diesen Modellen lassen sich auch Richtlinien für die Itemselektion ableiten. Zum einen müssen die Items den Anforderungen des betrachteten Modells folgen, zum anderen sollten sie einen Beitrag zur Erhöhung der Reliabilität bzw. zur Schätzgenauigkeit der latenten Personenwerte leisten. Wie wir am Beispiel von Cronbachs α gesehen haben, kann die Aufnahme von Items mit geringer Reliabilität zu einer Verringerung der Reliabilität des Gesamttests führen.


PDF-Kapitelübersicht 6Initiates file download



Kapitel 7

Einführung in mehrdimensionale Testmodelle


Überblick

 

Mehrdimensionale Modelle sind dadurch gekennzeichnet, dass in diesen Modellen mehrere latente Variablen (Faktoren) berücksichtigt werden. Es wurden mit der konfirmatorischen und der exploratorischen Faktorenanalyse zwei Klassen von Modellen vorgestellt, die beide von dem Grundmodell der Faktorenanalyse ausgehen. Diesem Modell zufolge lässt sich eine beobachtbare Variable in eine Linearkombination von Faktoren und eine Residualvariable zerlegen. Der durch die Faktoren gemeinsam erklärte Varianzanteil der beobachtbaren Variablen heißt Kommunalität. Während man bei der konfirmatorischen Faktorenanalyse spezifische Hypothesen über die Anzahl der Faktoren und die Ladungsstruktur hat, liegen diese Hypothesen bei der exploratorischen Faktorenanalyse nicht vor. Ziele der exploratorischen Faktorenanalyse sind erstens herauszufinden, wie viele Faktoren notwendig sind, um die Zusammenhänge der beobachtbaren Variablen zu erklären, und zweitens die Bedeutung der Faktoren anhand der Ladungen zu bestimmen. Faktorenanalytische Modelle lassen sich für metrische und ordinale beobachtbare Variablen formulieren. Bei ordinalen Variablen geht man davon aus, dass jeder beobachtbaren Variablen eine itemspezifische kontinuierliche Variable zugrundeliegt, die faktorenanalytisch zerlegt wird. Ausgangspunkt für eine Faktorenanalyse bei ordinalen Variablen ist die polychorische Korrelationsmatrix. Es lassen sich verschiedene Spezialfälle der konfirmatorischen Faktorenanalyse unterscheiden, von denen die Verknüpfung mehrerer eindimensionaler Strukturen und Multikomponentenmodelle behandelt wurden. Bei Multikomponentenmodellen wird eine beobachtbare Variable in mehrere Komponenten zerlegt. Sind diese unkorreliert, so lässt sich auch die Varianz der beobachtbaren Variablen in mehrere Varianzkomponenten zerlegen. Diese geben an, wie viel Prozent der Varianz einer beobachtbaren Variablen durch diese Komponenten determiniert wird. Die Verknüpfung mehrerer eindimensionaler Strukturen spielt u. a. in der Validitätsforschung eine Rolle, wenn ein Konstrukt mit einem anderen Konstrukt in Beziehung gesetzt werden soll. Diese Modelle haben den Vorteil, dass in Bezug auf die latente Korrelation (Validitätskoeffizient) die Abhängigkeit der Validität von den Reliabilitäten nicht gegeben ist. Bei Korrelationen beobachtbarer Variablen ist der mögliche Validitätskoeffizient hingegen nach oben hin durch die Reliabilitäten beschränkt. Neben Modellen mit latenten Variablen kann diese Beschränktheit auch durch eine Minderungskorrektur behoben werden.


PDF-Kapitelübersicht 7Initiates file download



Kapitel 8

Interpretation und Normierung von Testwerten


Überblick

 

 

Das Ziel einer Normierung besteht darin, die Testwerte einer Person besser interpretierbar und die Merkmalsausprägungen zwischen verschiedenen Tests vergleichbar zu machen. Es wurden vier verschiedene Bezugssysteme behandelt. Das erste Bezugssystem ist die Verteilung eines Merkmals in einer Normpopulation. Hierbei unterscheidet man lineare und nicht lineare Transformationen. Lineare Transformationen haben den Vorteil, dass sie die Form der Verteilung nicht verändern. Beispiele für lineare Transformationen sind die z-, Z-, T-, IQ-Transformation. Ein Nachteil linearer Transformationen bei nicht symmetrischen Verteilungen besteht darin, dass sie falsche Schlussfolgerungen nahe legen können. Lineare Transformationen sind insbesondere bei normalverteilten Variablen sinnvoll. Nicht lineare Transformationen basieren vor allem auf Prozentrangwerten, die angeben, wie viel Prozent der Personen der Normpopulation bzw. –stichprobe denselben oder einen geringeren Wert als die Person mit einem spezifischen Testwert aufweisen. Gröbere Normwerte sind Dezilrangwerte und Quartilrangwerte. Der Vorteil von nicht linearen Transformationen liegt in ihrer breiten Anwendbarkeit. Bei ihrer Interpretation muss allerdings beachtet werden, dass sich hinter demselben Unterschied zweier Prozentrangwerte unterschiedlich große Konstruktunterschiede verbergen können, je nachdem, welche Form die Verteilung aufweist. Normalisierende Transformationen transformieren die Testwerte so, dass sie annähernd normalverteilt sind. Man greift auf sie zurück, wenn von der Normalverteilung der wahren Konstruktausprägungen ausgegangen werden kann und Abweichungen der Merkmalsausprägungen von der Normalverteilung auf Störeinflüsse zurückgeführt werden können. Beispiele normalisierender Transformationen sind T-skalierte Werte, Stanine-Werte und C-Werte (Centil-Werte). Um die Anzahl der Skalenpunkte so festzulegen, dass sie keine zu große Messgenauigkeit vortäuschen, kann auf Transformationen zurückgegriffen werden, die die Präzision der Schätzung der Konstruktausprägung berücksichtigen.

Bei der Ziehung einer Eichstichprobe aus der zugrundeliegenden Normpopulation sollte möglichst eine Zufallsstichprobe angemessener Größe gezogen werden. Der Stichprobenumfang sollte so groß sein, dass die Reliabilität und die transformierten Werte präzise geschätzt werden können und sie enge Konfidenzintervalle aufweisen. Für wichtige Entscheidungen auf individueller Ebene sollte die Eichstichprobe mindestens 400 Personen umfassen. In spezifischen Fragestellungen kann von Interesse sein, den Wert einer Person nicht auf eine Normpopulation, sondern eine singuläre andere Person zu beziehen.

Das zweite Bezugssystem ist der Wert einer Person auf demselben Test zu einer anderen Messgelegenheit. Hierzu kann die Differenz der Werte bestimmt und auf Abweichung von 0 statistisch getestet werden. Das dritte Bezugssystem ist der Vergleich der Testergebnisse einer Person mit ihren Ergebnissen auf anderen Tests. Auch hierzu können Differenzwerte auf Abweichung von 0 statistisch getestet werden oder eine intraindividuelle Profilanalyse durchgeführt werden. Das vierte Bezugssystem ist der Vergleich eines Testwertes mit einem Kriterium. Ziel ist hierbei zu bestimmen, ob eine Person ein Kriterium (z. B. Kompetenzgrad, Eignung, Vorliegen einer Störung) erfüllt. Häufig geht es darum festzustellen, ob eine Person einer spezifischen Kriteriumsgruppe angehört. Zur Bestimmung der Güte von Gruppenzuordnungen kann auf die Sensitivität und Spezifität sowie den positiven und den negativen prädiktiven Wert zurückgegriffen werden. Die Sensitivität entspricht dem Anteil der richtig-positiv Diagnostizierten an dem Anteil der Personen, die der Kriteriumsgruppe angehören. Die Spezifität ist der Anteil der richtig-negativ Diagnostizierten an dem Anteil der Personen, die der Kriteriumsgruppe nicht angehören. Der positive prädiktive Wert ist der Anteil der richtig-positiv Diagnostizierten an dem Anteil der Personen, die eine positive Diagnose erhalten haben. Der negative prädiktive Wert ist ist der Anteil der richtig-negativ Diagnostizierten an dem Anteil der Personen, die eine negative Diagnose erhalten haben.


PDF-Kapitelübersicht 8Initiates file download



 

Ihr Suchergebnis leitet Sie auf die Website www.testzentrale.de.