Statistik – Deskriptive Verfahren

Kapitelübersicht


Kapitel 1

Über dieses Buch




Kapitel 2

Zur Relevanz der Statistik




Kapitel 3

Grundbegriffe und Aufgaben der Statistik


Zusammenfassung

Gegenstand der Statistik sind das Design empirischer Studien und die Auswertung sowie Interpretation der Daten. Daten stellen die Ausprägungen (Werte) von Merkmalen (Variablen) dar, die an bestimmten statistischen Einheiten erhoben wurden. Die Gesamtheit aller statistischen Einheiten, auf die sich die Fragestellungen einer Untersuchung richten, stellt die Grundgesamtheit bzw. Population dar. In der Regel werden nicht alle Mitglieder einer Population untersucht, sondern lediglich Stichproben. Wichtige Formen der Stichproben sind die einfache und geschichtete Zufallsstichprobe, die Quotenstichprobe und das Convenience sample. Stichproben sollen repräsentativ sein, d. h., die Daten der Stichprobe sollen angemessene Aussagen über die zugrunde liegende Population erlauben.

Die wichtigste Aufgabe der deskriptiven Statistik ist die zusammenfassende Beschreibung der Daten anhand tabellarischer und grafischer Verfahren sowie anhand bestimmter Kennwerte. Die wichtigsten Kennwerte der univariaten Statistik, in der es um die separate Analyse der Variablen geht, beschreiben die Lage und die Variabilität der Messwerte. In der bivariaten Statistik, in der zwei Variablen gemeinsam betrachtet werden, werden vor allem solche Koeffizienten thematisiert, die den Zusammenhang zweier Variablen erfassen. Weitere Verfahren der deskriptiven Statistik stellen die einfache Regression und das lineare Modell dar. Hier geht es um die Vorhersage bzw. Erklärung der Variabilität einer abhängigen Variablen durch eine unabhängige Variable bzw. mehrere unabhängige Variablen.

Die wesentliche Aufgabe der Inferenzstatistik ist die Generalisierung der Ergebnisse aus einer Stichprobe oder mehreren Stichproben auf die zugrunde liegende Population. Dazu gilt es, Schätzungen bestimmter Kenngrößen der Verteilung von Merkmalen in der Population (Parameter) anhand der Stichprobendaten vorzunehmen. Für solche Schätzungen (Punktschätzungen), die mit einer gewissen Unsicherheit behaftet sind, können Vertrauensintervalle berechnet werden, die mit einer bestimmten Wahrscheinlichkeit die Parameter enthalten. Ein weiterer, damit eng verwandter Bereich der Inferenzstatistik beschäftigt sich mit der Testung von Hypothesen.

 

PDF-Kapitelübersicht 3



Kapitel 4

Klassifikation von Daten


Zusammenfassung

Die erste wichtige Aufgabe statistischer Analysen besteht darin, den Informationsgehalt der beteiligten Variablen zu bestimmen. Anhand des Informationsgehalts der Variablen können dann die adäquaten statistischen Verfahren ausgewählt werden.

Zur Bestimmung des Informationsgehalts von Variablen wurden mehrere Klassifikationen entwickelt. Das wichtigste Klassifikationsschema ist das Skalenniveau. Hier werden – in absteigender Reihenfolge ihres Informationsgehalts – Ratio-, Intervall-, Ordinal- und Nominalskalen unterschieden. Ratioskalen haben das höchste Skalenniveau. Sie besitzen einen natürlichen Nullpunkt. Für die Variablenwerte von ratioskalierten Variablen können Verhältnisse, Abstände und Rangordnungen gebildet und sinnvoll interpretiert werden. Intervallskalen erlauben lediglich die sinnvolle Bildung von Abständen und einer Rangordnung der Variablenwerte. Ratio- und Intervallskalen werden auch zu der Kategorie „metrische Variablen“ zusammengefasst. Ordinalskalierte Variablen lassen nur eine Rangordnung der Variablenwerte zu, während die Ausprägungen nominalskalierter Variablen lediglich Kategorien darstellen, die nicht sinnvoll geordnet werden können.

Bei der Unterscheidung von quantitativen und qualitativen Variablen entsprechen qualitative Variablen nominalskalierten Variablen. Quantitative Variablen besitzen Ausprägungen, die eine unterschiedliche Intensität eines Merkmals reflektieren. Solche Variablen sind mindestens ordinalskaliert.

Die Differenzierung von diskreten und stetigen Variablen ist insbesondere für die Unterscheidung von Zufallsvariablen relevant. Diskrete Variablen besitzen Ausprägungen, die unterschiedliche Kategorien repräsentieren. Die Anzahl ihrer Ausprägungen ist endlich oder abzählbar unendlich. Bei stetigen Variablen ist die Menge der Ausprägungen nicht abzählbar. Zwischen zwei Werten einer stetigen Variablen können immer (zumindest prinzipiell) unendlich viele andere Werte liegen.

 

PDF-Kapitelübersicht 4



Kapitel 5

Univariate Häufigkeitsverteilung


Zusammenfassung

Im Rahmen der univariaten deskriptiven Statistik gilt es, nach der Festlegung des Skalenniveaus der Variablen, zunächst einen Überblick über die Verteilung der einzelnen Variablen zu gewinnen. Dazu dient die Häufigkeitsverteilung, die die absoluten, relativen und kumulierten relativen Häufigkeiten in tabellarischer Form enthält. Die Erstellung von Häufigkeitsverteilungen für die einzelnen Variablen ist ein erster wichtiger Schritt, der im Rahmen der meisten statistischen Analysen standardmäßig durchgeführt wird.

Die grafische Darstellung der Häufigkeitsverteilung kann anhand verschiedener Verfahren vorgenommen werden. Für die Darstellung der absoluten und relativen Häufigkeiten diskreter Variablen eignen sich insbesondere Kreis- und Balkendiagramme. Das Stamm-Blatt-Diagramm stellt eine semigrafische Darstellung der absoluten Häufigkeiten für metrische Variablen mit einer nicht übermäßig großen Anzahl von Beobachtungen dar. Histogramme sind insbesondere für metrische Variablen mit sehr vielen Ausprägungen gedacht. Für die Erstellung von Histogrammen müssen die Ausprägungen einer Variablen häufig zunächst gruppiert werden. In das Histogramm kann die Gauß’sche Glockenkurve so eingezeichnet werden, dass sie möglichst gut an die Daten angepasst ist. Damit kann man relativ gut sehen, inwieweit die Variable einer Normalverteilung folgt.

Weiterhin kann die empirische Verteilungsfunktion, die Verteilung der kumulierten relativen Häufigkeiten, grafisch als Treppenfunktion dargestellt werden. Während beim Histogramm durch eine Gruppierung der Variablenwerte ein gewisser Informationsverlust erfolgt, bleiben bei der grafischen Darstellung der empirischen Verteilungsfunktion die ursprünglichen Informationen erhalten. Die empirische Verteilungsfunktion spielt für viele weitergehende statistische Verfahren eine wichtige Rolle. Einen besseren Eindruck von der Form einer Häufigkeitsverteilung gewährt jedoch in der Regel das Histogramm. So zeigt das Histogramm übersichtlich die Anzahl der Gipfel sowie die Schiefe einer Verteilung an.

Verteilungen können (approximativ) symmetrisch sein oder schief. Grundsätzlich werden zwei Arten von schiefen Verteilungen unterschieden. Eine Verteilung wird als rechtsschief bzw. linkssteil bezeichnet, wenn sie im Vergleich zu einer entsprechenden symmetrischen Verteilung auf der rechten Seite flacher abfällt und auf der linken Seite steiler ansteigt. In analoger Weise wird eine Verteilung als linksschief bzw. rechtssteil definiert.

 

PDF-Kapitelübersicht 5



Kapitel 6

Univariate deskriptive Statistiken


Zusammenfassung

Die in diesem Kapitel vorgestellten Maßzahlen (Statistiken) dienen zur zusammenfassenden numerischen Beschreibung der Verteilung einer Variablen. Es wurden Koeffizienten zur zentralen Tendenz, Streuung, Schiefe und Wölbung dargestellt. Je nach Skalenniveau einer Variablen können unterschiedliche Statistiken berechnet werden.

Zur Erfassung der zentralen Tendenz von metrischen Variablen kann das arithmetische Mittel berechnet werden. Das arithmetische Mittel minimiert die Summe der Abweichungsquadrate, es kann insbesondere bei kleinen Stichproben empfindlich auf extrem hohe oder niedrige Werte (Ausreißer) reagieren. Unterteilt man die Gesamtstichprobe erschöpfend in mehrere Substichproben, stimmen im Allgemeinen der Mittelwert der Gruppenmittelwerte und der Gesamtmittelwert nicht überein. Für mindestens ordinalskalierte Variablen kann der Median und für mindestens nominalskalierte Variablen der Modus berechnet werden.

Der Median minimiert die Summe der Beträge der Abweichungen und ist wie der Modus robust gegenüber Ausreißern. Quantile stellen eine Verallgemeinerung des Medians dar, sie unterteilen die Werte einer Variablen anhand eines vorher festgelegten Verhältnisses in zwei Teile.

Der Mittelwert ist äquivariant gegenüber den auf Intervallskalenniveau zulässigen positiv affinen Transformationen, der Median gegenüber den auf Ordinalskalenniveau zugelassenen streng monotonen Transformationen und der Modus gegenüber den auf Nominalskalenniveau erlaubten injektiven Transformationen.

Die Streuung metrischer Variablen kann durch die Summe der Abweichungsquadrate erfasst werden. Dieses Maß hängt jedoch vom Stichprobenumfang ab. Daher werden als Maße für die Streuung metrischer Variablen in der Regel die Varianz und Standardabweichung berichtet. Die Standardabweichung besitzt im Gegensatz zur Varianz die gleiche Maßeinheit wie die zugrunde liegende Variable. Für die Berechnung der Varianz bzw. Standardabweichung einer positiv affin transformierten Variablen ist die ursprüngliche Statistik mit dem Quadrat bzw. Betrag des Steigungskoeffizienten zu multiplizieren. Ein weiteres Maß für die Streuung metrischer Variablen stellt der Range dar. Für mindestens ordinalskalierte Variablen dient der Interquartilabstand zur Messung der Streuung.

Zwei weitere Arten von Maßzahlen erfassen die Schiefe bzw. Wölbung einer Variablen. Für mindestens intervallskalierte Variablen kann die Schiefe anhand der Lageregeln und des Schiefekoeffizienten für metrische Daten berechnet werden. Zur Messung der Schiefe mindestens ordinalskalierter Variablen eignet sich der Quartilskoeffizient der Schiefe. Durch die Verwendung anderer Quantile kann dieses Maß verallgemeinert werden. Der Kurtosiskoeffizient, der metrische Daten voraussetzt, vergleicht die Wölbung einer bestimmten Variablen mit der Wölbung einer normalverteilten Variablen mit identischer Varianz. Stimmen beide Variablen annähernd überein, liegt eine mesokurtische Verteilung vor, ansonsten eine leptokurtische oder platykurtische Verteilung.

 

PDF-Kapitelübersicht 6



Kapitel 7

Standardisierung und extreme Werte von Variablen


Zusammenfassung

In diesem Kapitel wurde zunächst die Standardisierung von Variablen behandelt. Die Werte standardisierter Variablen enthalten zusätzliche Informationen über ihre Position in der Verteilung, ohne dass die kumulierte relative Häufigkeit bekannt sein muss. Standardisierte Werte ermöglichen weiterhin den Vergleich der Werte mehrerer Variablen mit völlig unterschiedlichen Maßeinheiten, wie z. B. kg oder m. Zudem kann ein Messwert im Hinblick auf verschiedene Populationen standardisiert werden, so dass man Auskunft über seine relative Position in unterschiedlichen Populationen erhält.

Ausgangspunkt der Standardisierung ist die Bildung zentrierter Variablen, hier wird von jedem ursprünglichen Wert das arithmetische Mittel abgezogen.

Für die z-Standardisierung, die die wichtigste Form der Standardisierung darstellt, werden die zentrierten Werte durch die Standardabweichung dividiert. z-Werte geben somit an, um wie viele Standardabweichungen die ursprünglichen Werte vom Mittelwert entfernt liegen. Mittelwert bzw. Standardabweichung von z-Werten betragen 0 bzw. 1.

Anstelle der z-Transformation sind auch andere Transformationen, wie die IQ-, Z- und T-Transformation gebräuchlich. Weitere Transformationen bzw. Skalen stellen die Stanine-, PISA-, Schulnoten- und spezielle Abiturnotenskala dar. All diese Skalen lassen sich anhand positiv affiner Transformationen ineinander überführen, besitzen also den gleichen Informationsgehalt. Die Perzentile der Normalverteilung bilden die Prozentrangskala.

Durch die Standardisierung lassen sich leicht Ausreißer und extreme Werte erkennen. Ist eine Variable normalverteilt, geben die z-Werte dieser Variablen Auskunft darüber, ob sie vom Betrag her sehr große und damit unwahrscheinliche Werte repräsentieren, die eventuell fehlerhafteWerte darstellen. Zur Abschätzung, inwieweit z-Werte von Variablen mit einer beliebigen Verteilung betragsmäßig sehr groß sind, dient die Tschebycheff-Ungleichung.

Ein häufig genutztes grafisches Verfahren zur Identifikation von Ausreißern und extremen Werten stellen Boxplots dar. Boxplots beruhen auf Statistiken, die bereits ab Ordinalskalenniveau zulässig sind, und erlauben weiterhin eine Abschätzung der Lage, Streuung und Schiefe der Verteilung einer Variablen.

 

PDF-Kapitelübersicht 7



Kapitel 8

Bivariate deskriptive Statistik


Zusammenfassung

In der bivariaten Statistik geht es um die gemeinsame Analyse zweier Variablen. Die wesentlichen Themen sind hier bivariate Häufigkeitsverteilungen und ihre grafische Darstellung sowie die Messung der Assoziation von zwei Variablen anhand von Zusammenhangsmaßen.

Im Zentrum bivariater Häufigkeitstabellen stehen die absoluten oder relativen Häufigkeiten der Wertepaare zweier Variablen und die sogenannten Randverteilungen, die den univariaten absoluten bzw. relativen Häufigkeitsverteilungen der einzelnen Variablen entsprechen. Weiterhin können die bedingten Häufigkeitsverteilungen betrachtet werden, die aus den relativen Häufigkeiten der Ausprägungen einer Variablen gegeben eine bestimmte Ausprägung der anderen Variablen bestimmt werden.

Zur grafischen Darstellung von bivariaten Häufigkeitsverteilungen können u. a. Balkendiagramme, Histogramme oder Streudiagramme verwendet werden.

Die Auswahl eines geeigneten Zusammenhangsmaßes ist zunächst durch das Skalenniveau der beiden Variablen bestimmt. Für zwei intervallskalierte Variablen ist der Produkt-Moment-Korrelationskoeffizient das adäquate Maß. Dieser Koeffizient stellt das wohl wichtigste Zusammenhangsmaß in den Sozialwissenschaften dar. Sind zwei Variablen ordinalskaliert, wird der Zusammenhang häufig anhand der Spearmanschen Rangkorrelation berechnet. Geeigneter erscheinen jedoch Koeffizienten, die auf dem Konzept der Konkordanz/Diskordanz beruhen. Liegen keine Rangbindungen vor, kann der Koeffizient γ berechnet werden, ansonsten kommen die Koeffizienten τb oder τc infrage.

Für nominalskalierte Variablen existieren ebenfalls zahlreiche Koeffizienten zur Messung des Zusammenhangs. Hier empfiehlt sich insbesondere die Berechnung von Cramers V.

Für die Messung des Zusammenhangs von Variablen mit unterschiedlichem Skalenniveau gibt es eine Reihe spezifischer Zusammenhangsmaße, von denen insbesondere der Koeffizient η häufig genutzt wird.

 

PDF-Kapitelübersicht 8



Kapitel 9

Einfache lineare Regression


Zusammenfassung

In der einfachen linearen Regression wird eine metrische abhängige Variable durch eine metrische unabhängige Variable (linear) vorhergesagt. Dazu wird eine Regressionsgerade so durch das Streudiagramm dieser beiden Variablen gelegt, dass die Summe der quadrierten Abweichungen der Werte der abhängigen Variablen von der Regressionsgeraden minimiert wird.

Sind die abhängige und unabhängige Variable z-transformiert, stimmt der dann berechnete (standardisierte) Regressionskoeffizient für die Steigung der Regressionsgeraden mit dem Produkt-Moment-Korrelationskoeffizienten der beiden Variablen überein.

Anhand der Regressionsgeraden lassen sich die Abweichungen der Messwerte vom Mittelwert in einen erklärten und einen Fehleranteil untergliedern. Auch die Summe der quadrierten Abweichungen vom Mittelwert (gesamte Variation) setzt sich additiv aus der Summe der quadrierten Abweichungen der vorhergesagten Werte vom Mittelwert (erklärte Variation) und der Summe der quadrierten Fehler (nicht erklärte Variation) zusammen. Damit kann der Determinationskoeffizient, der dem quadrierten Produkt-Moment-Korrelationskoeffizienten entspricht, als Verhältnis der erklärten zur gesamten Variation bestimmt werden. Die Wurzel aus der Fehlervarianz ergibt den Standardschätzfehler, der zur Beurteilung der Güte der Vorhersage genutzt werden kann.

Wesentliche Voraussetzungen für eine sinnvolle Interpretation der Ergebnisse der einfachen linearen Regression sind die Linearität, Homoskedastizität (homogene Fehlervarianzen) und Abwesenheit von Ausreißern und einflussreichen Beobachtungen.

 

PDF-Kapitelübersicht 9



Kapitel 10

Das lineare Modell


Zusammenfassung

Das lineare Modell stellt eine Erweiterung der einfachen linearen Regression dar. Hier wird ein intervallskaliertes Kriterium durch mehrere Prädiktoren erklärt, die auch nominalskaliert sein können. Die wesentlichen Spezialfälle des linearen Modells stellen die einfache und multiple Regression dar sowie die Varianzanalyse und Kovarianzanalyse.

Die multiple Regression stellt den grundlegenden Spezialfall des linearen Modells dar. Hier wird ein Kriterium durch die gewichtete Summe mehrerer intervallskalierter Prädiktoren vorhergesagt bzw. erklärt. Die Gewichte bzw. Regressionskoeffizienten werden so bestimmt, dass der quadrierte Abstand zwischen den vorhergesagten Werten minimiert wird. Die multiple Korrelation stellt die einfache Korrelation zwischen dem Kriterium und den aufgrund mehrerer Prädiktoren vorhergesagten Werten dar.

Im Falle unkorrelierter Prädiktoren stimmen die unstandardisierten und standardisierten Regressionskoeffizienten in der multiplen Regression mit den entsprechenden Koeffizienten in der einfachen Regression überein. In diesem Fall können den einzelnen Prädiktoren auch Variationsanteile, die durch sie bedingt sind, zugeordnet werden.

Hingegen wird in der multiplen Regression mit korrelierten Prädiktoren bei einem Prädiktor nicht der Einfluss des „gesamten“ Prädiktors auf das Kriterium erfasst, sondern lediglich der Einfluss der Partialvariablen, d. h. des Anteils des Prädiktors, der unabhängig von jeweils allen anderen Prädiktoren ist. Anders ausgedrückt, es wird der Einfluss des Prädiktors unter Konstanthaltung der jeweils restlichen Prädiktoren auf das Kriterium bestimmt.

Die Korrelation des Kriteriums mit der Partialvariablen heißt auch semipartielle Korrelation. Die partielle Korrelation stellt die bivariate Korrelation zwischen zwei Variablen dar, aus denen jeweils der Einfluss einer anderen oder mehrerer anderer Variablen auspartialisiert ist.

Im Fall einer multiplen Regression mit korrelierten Prädiktoren können den einzelnen Prädiktoren im Allgemeinen keine aufgeklärten Variationsanteile zugeordnet werden, hier können lediglich inkrementelle Variationsanteile betrachtet werden.

Um nominalskalierte Variablen mit k Ausprägungen in das lineare Modell einzubeziehen, müssen diese Variablen in k – 1 neue Variablen transformiert werden. Es gibt verschiedene Formen der Transformation, zumeist wird die Dummy- oder Effektkodierung gewählt. In das lineare Modell können auch nicht lineare Transformationen der Prädiktoren einbezogen werden ebenso wie Interaktionsterme. Interaktionen erfassen die gemeinsame Wirkung von zwei oder mehreren Variablen.

Wesentliche Voraussetzungen des linearen Modells sind die Homoskedastizität, Linearität sowie Abwesenheit von Ausreißern und einflussreichen Beobachtungen.

 

PDF-Kapitelübersicht 10



 

Ihr Suchergebnis leitet Sie auf die Website www.testzentrale.de.