Statistik – Testverfahren

Kapitelübersichten


Kapitel 1

Über dieses Buch




Kapitel 2

Hypothesentestung


Zusammenfassung

Statistische Tests dienen zur Entscheidung über statistische Testprobleme anhand von Teststatistiken. Statistische Testprobleme bestehen aus einer Nullhypothese und einer Alternativhypothese. Diese Hypothesen enthalten Aussagen über Wahrscheinlichkeitsverteilungen oder – spezifischer – über Parameter von Wahrscheinlichkeitsverteilungen. Dabei entspricht die Alternativhypothese in der Regel einer inhaltlichen Hypothese, die es nachzuweisen gilt.

Wenn Hypothesen sich lediglich auf eine Ausprägung des Parameters richten, heißen sie einfach, ansonsten handelt es sich um zusammengesetzte Hypothesen. Zusammengesetzte Hypothesen können ungerichtet sein, z. B. μμ₀, oder gerichtet, z. B. μ > μ₀.

Ein Testproblem heißt ungerichtet, wenn die zugehörige Alternativhypothese ungerichtet ist, ansonsten liegt ein gerichtetes Testproblem vor. Einseitige statistische Tests prüfen ein gerichtetes Testproblem, zweiseitige Tests hingegen ein ungerichtetes Testproblem.

Bei der Entscheidung über ein Testproblem können zwei Fehler entstehen, die irrtümliche Ablehnung der Nullhypothese, auch Fehler 1. Art oder α-Fehler genannt, sowie die irrtümliche Beibehaltung der Nullhypothese, die auch Fehler 2. Art oder β-Fehler heißt.

Bei Signifikanztests wird der Fehler 1. Art kontrolliert, d. h. es wird eine Schranke, das sogenannte Signifikanzniveau α, vorgegeben, die nicht überschritten werden soll. Häufig werden als Werte für α .05, .01 oder .001 gewählt.

Als Beispiel für einen Signifikanztest diente der Gauß-Test. In diesem Test geht es um Testprobleme zu erwartungswerten von normalverteilten Variablen mit bekannter Varianz.

Der Fehler 1. Art impliziert in der Regel schwerwiegendere negative Konsequenzen als der Fehler 2. Art. Daher wird der Fehler 1. Art von vornherein kontrolliert. Zudem gilt es aber, auch den Fehler 2. Art (den β-Fehler) gering zu halten. Dazu betrachtet man die Power, das Komplement des Fehlers 2. Art.

Die Power eines Tests hängt vom Wert des Parameters ab, der unter H₁ gelten soll. Allerdings betrachtet man oft anstelle des Erwartungswertes μ die Effektstärke δ, die den anhand der Standardabweichung normierten Unterschied zwischen zwei Erwartungswerten erfasst. Weiterhin beeinflussen das Signifikanzniveau und die Stichprobengröße die Power. Da die Effektstärke und das Signifikanzniveau α in der Regel feste Größen darstellen, lässt sich die Power durch die Wahl einer geeigneten Stichprobengröße festlegen.

Die Güte von Tests kann anhand der sogenannten Gütefunktion beurteilt werden. Die Gütefunktion gibt die Abhängigkeit der Wahrscheinlichkeit, die Nullhypothese abzulehnen, von der Ausprägung eines Parameters wieder. Die Gütefunktion dient zum Vergleich unterschiedlicher statistischer Tests.

Zumeist wird die Verteilung der Teststatistik analytisch aus bestimmten Annahmen abgeleitet. Wenn die Gültigkeit dieser Annahmen nicht gegeben ist, kann die Verteilung der Teststatistik häufig über das Bootstrap-Verfahren bestimmt werden.

PDF-Kapitelübersicht 2Initiates file download



Kapitel 3

Einstichprobentests


Zusammenfassung

Im vorliegenden Kapitel wurden Einstichprobentests zu Kennwerten von univariaten Wahrscheinlichkeitsverteilungen eines Merkmals z. B. Körpergröße, Intelligenz etc. vorgestellt. Die Kennwerte von Verteilungen können aus Parametern von Verteilungen bestehen, z. B. μ und σ bei N (μ, σ) oder aus anderen Maßen, wie dem Median oder Quantilen. Die hier vorgestellten Tests werden als Einstichprobentests bezeichnet, da ihnen nur eine Stichprobe zugrunde liegt.

Eine wesentliche Unterscheidung von statistischen Testverfahren betrifft die Einteilung dieser Verfahren in parametrische vs. nichtparametrische Tests. Die Hypothesen parametrischer Tests richten sich in der Regel auf Parameter einer Wahrscheinlichkeitsverteilung. Das entscheidende Merkmal parametrischer Tests besteht darin, dass die Teststatistik unter H₀ von der Wahrscheinlichkeitsverteilung des Merkmals abhängt. Die Testprobleme nichtparametrischer Tests beziehen sich zumeist auf Kenngrößen wie den Median. Bei nichtparametrischen Tests hängt die Teststatistik unter H₀ nicht von der Wahrscheinlichkeitsverteilung des Merkmals ab. Hier kommt in der Regel eine Vielzahl von Wahrscheinlichkeitsverteilungen in Frage, z.B. die Menge aller Wahrscheinlichkeitsverteilungen mit einer stetigen Verteilungsfunktion. In der Regel beruhen nichtparametrische Tests auf weniger restriktiven Annahmen, besitzen aber eine geringere Testgüte.

Als parametrische Einstichprobentests wurden in diesem Kapitel vorgestellt:
• Gauß-Test für den Erwartungswert einer normalverteilten Variablen mit bekannter Varianz,
t-Test für den Erwartungswert einer normalverteilten Variablen mit unbekannter, zu schätzender Varianz,
• Approximativer t-Test für den Erwartungswert einer beliebig verteilten Variablen,
• Test für die Varianz einer normalverteilten Variablen,
• Test für den Anteilswert π einer binomialverteilten Variablen.

Für diese Testverfahren wurden jeweils die Teststatistiken sowie die kritischen Werte hergeleitet. Weiterhin wurde die Power für diese Tests bestimmt.

Die beiden wichtigsten vorgestellten parametrischen Tests sind der t-Test und der approximative t-Test. Einerseits werden in der Praxis Hypothesen zu Erwartungswerten am häufigsten untersucht, andererseits ist die Voraussetzung der Kenntnis der Varianz beim Gauß-Test nur sehr selten erfüllt. Für einen Stichprobenumfang von n > 30 kann bei einer beliebigen Verteilung des Merkmals immer der approximative t-Test genutzt werden. Für kleinere Stichproben ist die Normalverteilung des Merkmals vorausgesetzt. Die Power des Gauß-Tests und des t-Tests unterscheiden sich unwesentlich, so dass von der „riskanten“ Nutzung einer Populationsvarianz für Anwendungen in der Praxis abzuraten ist.

Als Test für den Anteilswert einer binomialverteilten Zufallsvariablen wurden der exakte und der approximative Binomialtest vorgestellt. Bei einer hinreichenden Stichprobengröße kann die Binomialverteilung durch eine Normalverteilung approximiert werden. In diesem Fall kann der approximative Binomialtest eingesetzt werden.

Zwei nichtparametrische Einstichprobentests wurden in diesem Kapitel behandelt:
• Vorzeichentest,
• Wilcoxon-Vorzeichen-Rangtest.

Der Vorzeichentest setzt lediglich eine stetige Verteilungsfunktion voraus und wird zumeist für Hypothesen zum Median genutzt. Die Hypothesen des Vorzeichentests können aber auch allgemeiner auf jegliche Quantile Bezug nehmen. Werden symmetrische stetige Verteilungsfunktionen vorausgesetzt, kann der Vorzeichentest auch als Signifikanztest für Erwartungswerte benutzt werden.

Der Wilcoxon-Vorzeichen-Rangtest wird ebenfalls zumeist für Hypothesen zum Median eingesetzt. Er setzt symmetrische stetige Verteilungsfunktionen voraus. Damit beruht er auf restriktiveren Annahmen als der Vorzeichentest, besitzt dafür aber, wenn diese Annahmen erfüllt sind, eine höhere Power. Auch der Wilcoxon-Vorzeichen-Rangtest kann als Signifikanztest für Erwartungswerte benutzt werden.

 

PDF Kapitelübersicht 3Initiates file download



Kapitel 4

Anpassungstests


Zusammenfassung

In diesem Kapitel ging es um Methoden zur Überprüfung der Fragestellung, ob Beobachtungen aus einer bestimmten angenommenen Wahrscheinlichkeitsverteilung stammen. Dazu wurden der Quantil-Quantil-Plot (QQ-Plot) sowie verschiedene Testverfahren vorgestellt.

Mittels des QQ-Plots werden in der Regel die Quantile einer empirischen Verteilungsfunktion mit den Quantilen einer vorgegebenen theoretischen Verteilungsfunktion in einem Diagramm dargestellt. Liegen die Wertepaare annähernd auf einer Geraden, wobei die Abweichungen von der Geraden unsystematisch sind, ist davon auszugehen, dass die empirische Verteilung mit der theoretischen Verteilung übereinstimmt. Die Parameter der theoretischen Verteilung können dabei a priori festgesetzt oder aus den Daten geschätzt werden. Handelt es sich bei der theoretischen Verteilung um eine Normalverteilung, bezeichnet man den QQ-Plot als NQ-Plot.

Es wurden drei verschiedene Testverfahren vorgestellt:
• Shapiro-Wilk-Test,
• Kolmogorov-Smirnov-Test (K-S-Test),
χ²-Anpassungstest.

Bei diesen Anpassungstests wird unter der Nullhypothese angenommen, dass die Beobachtungen aus einer bestimmten Wahrscheinlichkeitsverteilung stammen. Zumeist dienen diese Tests zur Überprüfung von Verteilungsvoraussetzungen anderer Testverfahren, z. B. des t-Tests. Insofern ist man in der Regel daran interessiert, dass die Nullhypothese nicht verworfen wird. Um die Gefahr einer fälschlichen Beibehaltung der Nullhypothese bzw. einer bestimmten Verteilung zu mindern, sollte daher das Signifikanzniveau mit z. B. α = .20 oder α = .10 größer als üblich gewählt werden.

Beim Shapiro-Wilk-Test geht es um die Überprüfung der Hypothese, dass die Beobachtungen aus einer normalverteilten Population stammen. Dabei ist es unerheblich, ob bestimmte Werte für die Parameter angenommen werden oder ob sie aus den Daten geschätzt werden.

Der Kolmogorov-Smirnov-Test dient allgemeiner als der Shapiro-Wilk-Test zur Testung der Hypothese, dass die Beobachtungen aus einer bestimmten Wahrscheinlichkeitsverteilung mit einer stetigen Verteilungsfunktion stammen. Bei diesem Test sind die Werte der Parameter der theoretischen Verteilung a priori zu spezifizieren.

Speziell für die Überprüfung der Normalverteilungsannahme wurde die sogenannte Lilliefors-Korrektur entwickelt, die einen Einsatz dieses Tests erlaubt, wenn die Werte der Parameter einer Normalverteilung aus den Daten geschätzt werden. Dennoch ist – für die Überprüfung der Normalverteilungsannahme – der Shapiro-Wilk-Test diesem Test vorzuziehen, da er eine höhere Power besitzt.

Der allgemeinste der hier vorgestellten Tests ist der χ²-Anpassungstest, der für diskrete wie stetige Wahrscheinlichkeitsverteilungen anwendbar ist. Als Prüfgröße wird die χ²-Statistik verwendet. Die erwarteten Häufigkeiten werden dabei anhand der vorgegebenen theoretischen Verteilung bestimmt. Stetige Wahrscheinlichkeitsverteilungen müssen zu diskreten Wahrscheinlichkeitsverteilungen transformiert werden, indem der gesamte Wertebereich einer stetigen Verteilung in endlich viele, sich gegenseitig ausschließende Intervalle unterteilt wird.Werden die Parameter der unter H₀ angenommenen Verteilung aus den Daten geschätzt, sind die Freiheitsgrade der Teststatistik entsprechend zu korrigieren.


PDF-Kapitelübersicht 4Initiates file download



Kapitel 5

Tests für Zusammenhänge von Variablen


Zusammenfassung

In diesem Kapitel wurden Tests für Hypothesen zum Zusammenhang von zwei Variablen vorgestellt. Für den Zusammenhang von intervallskalierten Variablen wird in der Regel der Produkt-Moment-Korrelationskoeffizient eingesetzt. Zur Signifikanztestung dieses Koeffizienten ist zu unterscheiden, ob unter der Nullhypothese gilt: H₀ : ρXY = 0 oder H₀ : ρXY = ρ₀ ≠ 0. Im ersten Fall wird eine t-verteilte Teststatistik verwendet, im zweiten Fall eine z-Statistik basierend auf der sogenannten Fisher-Z-Transformation. Beide Testverfahren nehmen an, dass die Variablen X und Y bivariat normalverteilt sind.

Ist die Voraussetzung der bivariaten Normalverteilung nicht gegeben, kann man einen exakten Test einsetzen. Dieser Test wurde sehr ausführlich dargestellt, da auch weitere in diesem und in späteren Kapiteln dargestellte Signifikanztests exakte Testverfahren darstellen.

Der Zusammenhang von ordinalskalierten Variablen wird häufig mittels der Rangkorrelationen Spearmans ρS und Kendalls τb ermittelt. Für beide Koeffizienten wurden Signifikanztests für die Nullhypothese, dass diese Koeffizienten in der Population den Wert 0 annehmen, vorgestellt. Für kleine Stichprobenumfänge sind exakte Tests anzuwenden, für umfangreichere Stichproben liegen approximativ Verteilungen der Teststatistiken unter Gültigkeit der Nullhypothese vor.

Für die Testung des Zusammenhangs von nominalskalierten Variablen kann die χ²-Statistik verwendet werden. Hier unterscheiden wir zwischen einem multinomialen Sampling (alle Randsummen sind Zufallsvariablen), einem produkt-multinomialen Sampling (die Randsumme für X ist festgelegt und für Y zufällig oder umgekehrt) und einem hypergeometrischen Sampling (alle Randsummen sind festgelegt). In allen drei Fällen kann die Verteilung der χ²-Statistik asymptotisch durch die gleiche χ²-Verteilung approximiert werden.

Die Bedingungen für die Approximation sind, dass kein Erwartungswert kleiner als 1 ausfällt und dass mindestens 80% der Erwartungswerte größer als 5 sind.

Speziell für den Zusammenhang von binären Variablen wurden der exakte Test von Fisher-Yates und ein Signifikanztest für das Odds Ratio vorgestellt.

 

PDF-Kapitelübersicht 5Initiates file download



Kapitel 6

Zweistichprobentests


Zusammenfassung

Gegenstand dieses Kapitels waren Zweistichprobentests. Diese Testverfahren werden in der Praxis sehr häufig eingesetzt. Daher wurden sie relativ ausführlich behandelt.

 

Bei Zweistichprobentests geht es um die Überprüfung der Gleichheit bzw. Unterschiedlichkeit der Verteilungen von zwei Populationen. Dabei kann es sich um Unterschiede der gesamten Verteilung bzw. Verteilungsform oder lediglich von bestimmten Kennwerten handeln. Es wurden Tests zu den folgenden Kennwerten vorgestellt:
• Erwartungswert,
• Median,
• Varianz,
• Anteil,
• Korrelationskoeffizient.

 

Es sind zwei grundsätzliche Formen von Zweistichprobentests zu unterscheiden: Tests für unabhängige Stichproben und Tests für abhängige (verbundene) Stichproben.Bei unabhängigen Stichproben sind alle Mitglieder der beiden Stichproben voneinander unabhängig. Abhängige Stichproben bestehen aus Paaren von Beobachtungen, die jeweils zu einer der beiden Stichproben gehören. Solche Paare entstehen z. B. bei Messwiederholungen oder bei gematchten Beobachtungen. Während die beiden zu Paaren zusammengefassten Beobachtungen jeweils abhängig sein können, wird zwischen Beobachtungen aus unterschiedlichen Paaren in der Regel Unabhängigkeit vorausgesetzt.

 

Zunächst wurden Testverfahren für Lokationsunterschiede von unabhängigen Stichproben dargestellt. Dazu sind dann bestimmte Annahmen zur Verteilungsform erforderlich. Eine große Rolle spielen Zweistichprobentests zum Vergleich der Erwartungswerte. Diese Tests setzen für Stichprobenumfänge von n ≤ 30 normalverteilte Zufallsvariablen für die beiden Populationen voraus. Für größere Stichprobenumfänge werden lediglich i.i.d. Zufallsvariablen vorausgesetzt, für die die Voraussetzungen des zentralen Grenzwertsatzes erfüllt sind.

 

Sind die Varianzen bekannt, ist der sogenannte Z-Test einzusetzen. Bei unbekannten Varianzen sind t-Tests die adäquaten Testverfahren. Dabei ist zu unterscheiden, ob die Varianzen in den Gruppen als gleich oder ungleich angenommen werden. Im Fall gleicher Varianzen ist der t-Test für homogene Varianzen anzuwenden, im Fall unterschiedlicher Varianzen der Welch-Test. Als Alternative bietet sich der t-Test mit White-Korrektur an.

 

Sind zur Testung von Lokationsunterschieden die Voraussetzungen für die oben genannten Tests nicht erfüllt, kommen der Randomisierungstest für Mittelwertunterschiede, der Rangsummentest oder der Vorzeichentest in Frage. Dabei setzen, was häufig übersehen wird, der Randomisierungstest für Mittelwertunterschiede und der Rangsummentest symmetrische Verteilungen voraus.

 

Ganz allgemein kann man zwei unabhängige Verteilungen mit dem Zweistichproben-K-S-Test vergleichen. Hier dient die maximale Differenz zwischen den beiden empirischen Verteilungsfunktionen als Teststatistik. Damit wird jegliche Art von Unterschied, wie z. B. hinsichtlich des Erwartungswerts, der Varianz, Schiefe oder Kurtosis, überprüft. Aufgrund dieser Allgemeinheit besitzt der K-S-Test eine geringe Power. Somit erfordert dieser Test in der Regel einen hohen Stichprobenumfang.

 

Zur Überprüfung von Lokationsunterschieden zweier abhängiger Stichproben wurden der t-Test, der Wilcoxon-Vorzeichen-Rangtest und der Vorzeichentest vorgestellt. Ausgehend von den Differenzen der Messwerte sind diese Tests jeweils auf die entsprechenden Einstichprobentests zurückzuführen.

 

Für den Vergleich zweier Varianzen für unabhängige Stichproben wurden der F-Test und der Levene-Test vorgestellt. Der F-Test setzt normalverteilte Variablen voraus, während der Levene-Test – basierend auf den Absolutbeträgen der Abstände der Daten vom Mittelwert (oder Median) der Gruppe – lediglich die Annahme von i.i.d. Zufallsvariablen erfordert.

 

Schließlich wurden noch Zweistichprobentests zum Vergleich von Anteilswerten und Korrelationskoeffizienten, jeweils für unabhängige Stichproben, behandelt.

 

PDF-Kapitelübersicht 6Initiates file download



Kapitel 7

Varianzanalyse ohne Messwiederholung


Zusammenfassung

In diesem Kapitel wurden statistische Tests zur Analyse des Einflusses von einer oder zwei nominalskalierten Variablen bzw. eines Faktors oder zweier Faktoren auf eine intervallskalierte Variable vorgestellt. Im Vordergrund standen die ein- und zweifaktorielle Varianzanalyse, die sehr häufig in der Praxis eingesetzt werden.

Die einfaktorielle Varianzanalyse dient zur Signifikanzprüfung, ob es Unterschiede zwischen den Erwartungswerten mehrerer normalverteilter Populationen gibt. Dabei wird eine identische Varianz bei den zu vergleichenden Gruppen vorausgesetzt. Falls die Bedingung nicht erfüllt ist, kann die White-Korrektur angewendet werden. Die Annahme normalverteilter Variablen kann entfallen, wenn die Voraussetzungen des zentralen Grenzwertsatzes erfüllt sind.

Bei der einfaktoriellen Varianzanalyse wird die (gesamte) Variation der abhängigen Variablen in zwei Anteile zerlegt, einen systematischen (durch den Faktor bedingten) Anteil und einen Fehleranteil. Unter der Nullhypothese identischer Erwartungswerte variieren die beiden gemittelten Variationsanteile auf Stichprobenebene zufällig um den gleichen Wert. Die Signifikanzprüfung erfolgt anhand einer F-Statistik, bei der die beiden gemittelten Variationsquellen ins Verhältnis gesetzt werden.

Ein signifikantes Ergebnis besagt bei einer Varianzanalyse nur, dass sich irgendwelche Erwartungswerte unterscheiden. Will man genauer wissen, welche Paare von Erwartungswerten sich unterscheiden, sind Tests für multiple Mittelwertvergleiche durchzuführen. Bei diesen Tests taucht das Problem der sogenannten α-Fehler-Kumulierung auf. Um für mehrere Tests das α-Niveau zu adjustieren, wurden verschiedene Methoden bzw. Tests vorgestellt. Dabei ist zunächst zu unterscheiden, ob die Hypothesen zu den Erwartungswerten a priori, d. h. unabhängig von relevanten Kenntnissen über die Daten, aufgestellt wurden oder a posteriori, d. h. bei schon vorliegenden Kenntnissen über die Daten.

Die vorgestellten Methoden zur multiplen Testung von a priori aufgestellten Hypothesen sind keineswegs auf den Vergleich von Erwartungswerten beschränkt, sondern können für jegliche multiplen Testprobleme eingesetzt werden. Hier wurden die Šidák-, die Bonferroni- und die Bonferroni-Holm-Methode dargestellt. Als Post-hoc-Tests wurden die folgenden Verfahren behandelt: Fisher’s „Least Significant Difference“-Test, Tukey-Kramer-Test, Newman- Keuls-Verfahren, REGWQ-Verfahren, Dunnett-Test und Scheffè-Test.

Liegen ordinalskalierte Daten vor, ist die Annahme normalverteilter Variablen nicht gegeben oder sind die Voraussetzungen des zentralen Grenzwertsatzes nicht erfüllt, kommt als Alternative zur einfaktoriellen Varianzanalyse der Kruskal-Wallis-Test in Frage. Dieser Test stellt eine Verallgemeinerung des Wilcoxon-Rangsummentests dar und basiert ebenso auf Rängen.

Schließlich wurde eine Erweiterung des Levene-Tests auf mehr als zwei Stichproben vorgestellt. Bei diesem Test werden die Abweichungen der Beobachtungen von den Gruppenmittelwerten oder den entsprechenden Medianen einer einfaktoriellen Varianzanalyse unterzogen. Der Levene-Test wird hauptsächlich zur Überprüfung der Varianzhomogenität in Varianzanalysen genutzt.

Bei der zweifaktoriellen Varianzanalyse wird der Einfluss von zwei nominalskalierten Variablen bzw. Faktoren auf eine intervallskalierte Variable analysiert. Neben den beiden Haupteffekten kann der Interaktionseffekt auf Signifikanz geprüft werden. Ein Interaktionseffekt liegt vor, wenn der Haupteffekt eines Faktors auf unterschiedlichen Stufen des anderen Faktors nicht identisch ist.

Bei der zweifaktoriellen Varianzanalyse wird die (gesamte) Variation der abhängigen Variablen in mehrere Anteile zerlegt, systematische (durch die Haupt- und Interaktionseffekte bedingte) Anteile und einen Fehleranteil. Unter der Nullhypothese identischer Erwartungswerte unterscheiden sich die mittlere systematische und die mittlere Fehlervariation nicht signifikant. Die Signifikanzüberprüfung erfolgt anhand einer F-Statistik, bei der die entsprechenden Variationsquellen ins Verhältnis gesetzt werden.

Bei gleicher Zellenbesetzung setzt sich die gesamte aufgeklärte Variation additiv aus den systematischen Variationsanteilen zusammen. Zur Messung des Anteils der aufgeklärten Variation dient der Koeffizient η². Weiterhin wurde das Maß (ηp)² für die Erfassung der partiellen aufgeklärten Variation vorgestellt.

Bei der zweifaktoriellen Varianzanalyse werden wie bei der einfaktoriellen Varianzanalyse für Gruppengrößen mit n < 30 normalverteilte Variablen mit identischer Varianz vorausgesetzt, ansonsten müssen die Voraussetzungen für den zentralen Grenzwertsatz erfüllt sein.

Die Annahme der Varianzhomogenität kann mit dem Mehrstichproben-Levene-Test überprüft werden. Im Fall von Varianzheterogenität bietet sich die White-Korrektur an.

 

PDF-Kapitelübersicht 7Initiates file download



Kapitel 8

Varianzanalysen mit Messwiederholung


Zusammenfassung

In diesem Kapitel wurden statistische Tests zur Analyse von Designs mit Messwiederholungen vorgestellt. Neben der einfaktoriellen Varianzanalyse mit Messwiederholung wurden zwei Formen der zweifaktoriellen Varianzanalyse mit Messwiederholung behandelt.


Die einfaktorielle Varianzanalyse mit Messwiederholung dient zur Signifikanzprüfung, ob es Unterschiede zwischen den Erwartungswerten mehrerer normalverteilter Messungen innerhalb einer Person gibt. Dabei wird die sogenannte Sphärizität vorausgesetzt: Dies bedeutet, dass homogene Varianzen für die Differenzen zwischen den Messwiederholungen vorliegen. Falls die Bedingung nicht erfüllt ist, kann die Greenhouse-Geisser-Korrektur angewendet werden.


Bei der einfaktoriellen Varianzanalyse mit Messwiederholung wird nur die Variation innerhalb der Personen in zwei Anteile zerlegt, einen systematischen (durch den Faktor bedingten) Anteil und einen Fehleranteil. Die Variation zwischen den Personen wird also vor der Testung herausgerechnet und die Fehlervarianz im Vergleich zur einfaktoriellen Varianzanalyse ohne Messwiederholung somit reduziert. Die Testung der Nullhypothese erfolgt auch hier durch die Berechnung einer F-Statistik aus den beiden mittleren Abweichungsquadraten und dem Vergleich mithilfe der F-Verteilung.


Der Friedman-Test ist eine Alternative zur einfaktoriellen Varianzanalyse mit Messwiederholung. Hier werden die Daten jeder Person rangtransformiert und mithilfe dieser Ränge wird die Teststatistik berechnet. Vor allem für kleine Stichproben ist der Friedman-Test eine hilfreiche Alternative, da er keine normalverteilten Zufallsvariablen annimmt.


Es gibt zwei unterschiedliche Arten, zweifaktorielle Analysen durchzuführen, die Messwiederholung beinhalten: Eine Art ist die zweifaktorielle Varianzanalyse mit Messwiederholung auf beiden Faktoren, die andere Art ist die Kombination eines unabhängigen Faktors mit einer Messwiederholung.


Sind beide Faktoren als Messwiederholungen konzipiert, wird die Variation innerhalb der Versuchspersonen in jeweils drei Paare von Variationsquellen aufgeteilt: Die Variation für Faktor A mit zugehörigem Fehleranteil, die Variation von Faktor B mit eigenem Fehleranteil und die Variation für die Interaktion, die ebenfalls eine eigene Fehlervariable zugeordnet bekommt. Voraussetzung ist die Sphärizität auf den Ausprägungen des jeweils zu testenden Effekts. Eine eventuell fehlende Sphärizität kann im F-Test mit der Greenhouse-Geisser-Korrektur berücksichtigt werden.


Bei der Varianzanalyse mit einem Between- und einem Within-Subjects-Faktor liegt ein Split-Plot-Design vor, bei dem der erste Faktor die Variation zwischen den Gruppen Personen erfasst und der zweite Faktor die Variation aufgrund von Messwiederholungen. Dabei ist der Within-Subjects-Faktor in dem Between-Subjects-Faktor genestet. Die Voraussetzungen sind hier analog zu der Varianzanalyse ohne Messwiederholung: Liegt keine Varianzhomogenität vor, sollte ein F-Test mit White-Korrektur gerechnet werden. Der Messwiederholungsfaktor und die Interaktion erhalten eine Fehlervariation, die Teil der Variation innerhalb der Personen ist. Als Voraussetzung muss hier die Sphärizität gegeben sein, deren Verletzung mit der Greenhouse-Geisser-Korrektur abgefangen werden kann.

 

PDF-Kapitelübersicht 8Initiates file download



Kapitel 9

Das allgemeine lineare Modell


Zusammenfassung

Im allgemeinen linearen Modell wird der Einfluss mehrerer unabhängiger Variablen auf eine intervallskalierte abhängige Variable beschrieben. Nominalskalierte Variablen können durch Kodierungen (z. B. Dummy-, Effekt- oder Zellenmittelwertkodierung) in das lineare Modell aufgenommen werden. Damit stellen varianzanalytische und kovarianzanalytische Modelle Spezialfälle des allgemeinen linearen Modells dar. Mit dem allgemeinen linearen Modell steht damit ein allgemeines Kalkül für eine Vielzahl unterschiedlicher statistischer Modelle zur Verfügung, womit die Durchführung und Interpretation der Verfahren vereinheitlicht und insofern vereinfacht wird.

Standardmäßig wird der Einfluss einzelner Prädiktoren anhand einer T-Statistik auf Signifikanz geprüft und der gemeinsame Einfluss aller Prädiktoren anhand einer F-Statistik. Beide Testverfahren stellen jedoch Spezialfälle der sogenannten allgemeinen linearen Hypothese dar, bei der ein unrestringiertes Modell verglichen wird mit einem restringierten Modell, das durch die allgemeine lineare Hypothese spezifiziert wird. Anhand der allgemeinen linearen Hypothese können bestimmte Restriktionen für die Regressionskoeffizienten des unrestringierten Modells formuliert werden, wie z. B. Festlegung von bestimmten Werten für Regressionskoeffizienten oder Differenzen von Regressionskoeffizienten.

Im linearen Modell existieren mehrere Maße zur Messung der Effektstärke. Ganz allgemein betrachtet geht es hier um den Zuwachs der Effektstärke eines unrestringierten Modells gegenüber einem restringierten Modell. Häufig in der Praxis verwendete Maße für die Effektstärke sind die Koeffizienten R² und R bzw. die entsprechenden unverzerrten Maße R(ad j)² und R(ad j). Die weiterhin gebräuchlichen Maße f² und f Maße können jeweils durch eine Transformation aus R² berechnet werden. Ist eine der Effektstärken vorgegeben, kann (in Abhängigkeit von der Anzahl der Prädiktoren) auch die minimal notwendige Stichprobengröße für vorgegebene feste α- und β-Fehler berechnet werden.


Eine wichtige Voraussetzung des allgemeinen linearen Modells besteht darin, dass die Beobachtungen normalverteilt sind mit identischer Varianz. Liegt Varianzheterogenität vor, kann man mittels der sogenannten White-Korrektur die Standardfehler der Regressionskoeffizienten bzw. die F-Statistik so transformieren, dass die t-Verteilung für die Testung der Regressionskoeffizienten bzw. die F-Verteilung für die Testung der aufgeklärten Variation approximativ gilt.

 

PDF-Kapitelübersicht 9Initiates file download



 

Ihr Suchergebnis leitet Sie auf die Website www.testzentrale.de.