Test auf Normalverteilung < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) reagiert/warte auf Reaktion | Datum: | 12:34 Di 28.02.2012 | Autor: | DaniS |
Hallo,
ich versuche gerade meine Variablen soweit vorzubereiten um mit ihnen arbeiten zu können. Es handelt sich um Daten aus Befragungen von Haushalten, d.h. ich die Untersuchungseinheit ist der Haushalt.
Ich habe Variablen wie Haushaltsgröße, Anteil Männer, Anteil Haushaltsmitglieder über 15 Jahre alt, Durchschnittliches Haushaltsalter, Anzahl absolvierter Schuljahre pro Haushalt, Anzahl absolvierter Schuljahre der Haushaltsvorstände, Anteil Hauptberuf Bauer pro Haushalt, Größe des Landbesitzs, Dauer des Landbesitz, Einkommen aus Landwirtschaft, Wöchentliche Arbeitsteit in Stundne pro Haushalt in Landwirtschaft.
Nun bin ich gerade total verwirrt, da die meisten Variablen nicht normalverteilt sind, wie ich diese transformieren soll, bzw. welche überhaupt Sinn machen zu transformieren. Ich hatte gelesen, daß es besser ist die Normalverteilung mittels Grafiken zu beurteilen, aber da SPSS die Intervalle beliebig angibt bei Histogrammen bin ich mir sehr unsicher besüglich der Normalverteilung. Soll ich mich auf das Ergebnis des Kolmogorov-Smirnoff-Tets verlassen?
Ich möchte die Variablen in Nrmalverteilung transformieren weil ich eine Hauptkomponentenanalyse machen werde und daher für die Korrelationsmatrix normalverteilte Variablen brauche.
Vielen Dank schon mal.
Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt.
|
|
|
|
> Hallo,
>
> ich versuche gerade meine Variablen soweit vorzubereiten um
> mit ihnen arbeiten zu können. Es handelt sich um Daten aus
> Befragungen von Haushalten, d.h. ich die
> Untersuchungseinheit ist der Haushalt.
> Ich habe Variablen wie Haushaltsgröße, Anteil Männer,
> Anteil Haushaltsmitglieder über 15 Jahre alt,
> Durchschnittliches Haushaltsalter, Anzahl absolvierter
> Schuljahre pro Haushalt, Anzahl absolvierter Schuljahre der
> Haushaltsvorstände, Anteil Hauptberuf Bauer pro Haushalt,
> Größe des Landbesitzs, Dauer des Landbesitz, Einkommen
> aus Landwirtschaft, Wöchentliche Arbeitsteit in Stundne
> pro Haushalt in Landwirtschaft.
> Nun bin ich gerade total verwirrt, da die meisten
> Variablen nicht normalverteilt sind, wie ich diese
> transformieren soll, bzw. welche überhaupt Sinn machen zu
> transformieren. Ich hatte gelesen, daß es besser ist die
> Normalverteilung mittels Grafiken zu beurteilen, aber da
> SPSS die Intervalle beliebig angibt bei Histogrammen bin
> ich mir sehr unsicher besüglich der Normalverteilung. Soll
> ich mich auf das Ergebnis des Kolmogorov-Smirnoff-Tets
> verlassen?
> Ich möchte die Variablen in Normalverteilung
> transformieren weil ich eine Hauptkomponentenanalyse machen
> werde und daher für die Korrelationsmatrix normalverteilte
> Variablen brauche.
Hallo DaniS,
"Untersuchungseinheit ist der Haushalt" ... na schön -
und was ist denn eigentlich Ziel und Zweck der Untersuchung ?
Gibt es irgendwelche konkrete Fragestellung, oder soll da
einfach mal ein wenig "Statistik gespielt" werden ?
Wenn ich da zum Beispiel die Größe "Anzahl absolvierter
Schuljahre pro Haushalt" sehe, wird mir schon fast ein
wenig schwindlig ...
LG Al-Chw.
|
|
|
|
|
Status: |
(Frage) überfällig | Datum: | 14:46 Di 28.02.2012 | Autor: | DaniS |
Es geht um eine Untersuchung bezüglich sozio-ökonomischer Variablen der Bevölkerung in einem bestimmten Gebiet und deren Zusammenhänge mit der dortigen Landnutzung. So habe ich also 100 Kakao-Bauernhaushalte befragt.
Eine meiner Frage ist welche Variablen beeinflussen den Erhalt von Landnutzungsflächen mit hohem Baumanteil.
Ich habe ausser der vorhin erwähnten Variablen auch noch die Landnutzungsaufteilung innerhalb des Landes, das den Haushalten gehört, also z.B. : Land total: 10 ha, davon 5 ha Kakao, 2 ha Mais, 1 ha Weide und 1 ha Wald.
Einige der Variablen wie ebne Bildung habe ich pro Haushaltsindividuum. Deswegen habe ich versucht sie auf die Haushaltsebene zu bringen.
Grüße
|
|
|
|
|
Naja, ich persönlich würde es wahrscheinlich vorziehen,
Kakao anzubauen, anstatt solche Studien anfertigen zu
müssen ...
(Damit möchte ich aber andere nicht davon abhalten,
dir zu helfen !)
LG Al-Chw.
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 15:56 Di 28.02.2012 | Autor: | DaniS |
OK, ja das wäre sehr nett wenn du mir trotz Allem weiterhelfen könntest.
Liebe Grüße,
Daniela
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 16:22 Di 28.02.2012 | Autor: | vivo |
Hallo,
ich bin mir nicht ganz sicher, ob ich dein problem richtig verstehe:
Du hast empirische Daten und möchtest jetzt testen, ob du die Annahme der Normalverteilung aufrecht erhalten kannst ??????
Falls ja, würde ich mich keines Falls alleine auf das Aussehen der "empirischen Dichte", ect. verlassen. Also mehrer Testverfahren anwenden.
Falls die Annahme der Normalverteilung nicht aufrechterhalten werden kann, aber davon ausgegangen werden kann (oder einfach wird), dass die Verteilung in der Nähe einer Normalverteilung ist, verweise ich auf die robuste Statistik.
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 16:44 Di 28.02.2012 | Autor: | DaniS |
Ja, also meine Variablen sind zum Großteil nicht normalverteilt, und ich möchte aber eine Faktorenanalyse machen, weswegen ich sie transformieren möchte, damit sie eine Normalverteilung annehmen und ich eine Korrelationsmatrix erstellen kann.Nun habe ich das per Logarithmieren, Wurzel ziehen gemacht, bin mir aber unsicher, welcher Test bei n=100 ok ist, denn Shapiro-Wilk und Kolmogorov-Sm. Test sagen was unterschiedliches aus.
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 17:00 Di 28.02.2012 | Autor: | vivo |
wiederum bin ich mir nicht sicher ob ich dich richtig verstehe:
du fragst, ob, z.B. für die logarithmierten Werte, die Annahme der Normalverteilung aufrecht erhalten werden kann ??? Es ist doch so:
[mm]X \sim \mathbf{N}[/mm]
[mm]e^X \sim \mathbf{LN}[/mm]
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 17:07 Di 28.02.2012 | Autor: | DaniS |
ja genau. Man macht das doch aber um die Werte einer Normalverteilung anzunähern. Nun sehen meine Werte danach aber immer noch nicht so normal verteilt aus, bzw. wie becshrieben, je nach Test, einmal ja einmal, nein.
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 17:25 Di 28.02.2012 | Autor: | vivo |
sorry ich versteh es nicht!
entweder du kann die Annahme, dass deine empirischen gesammelten Daten logarithmisch Normalverteilt sind aufrechterhalten, dann ist der logarithmus davon normalverteilt, oder eben nicht. Kannst du dass mit dem Annähern mal genuaer erläutern ???
Natürlich kann ein Test zu dem Ergebnis kommen, dass eine Hypothes verworfen werden sollte und eine anderer dazu, dass die selbe Hypothes aufrechterhalten werden kann. Nur weil nach einem Test eine Hypothese nicht verworfen werden kann, heißt dass ja noch lange nicht, dass es so ist und andersherum.
|
|
|
|
|
Status: |
(Frage) überfällig | Datum: | 17:47 Di 28.02.2012 | Autor: | DaniS |
OK, hier ein Zitat aus dem Skript meiner Statistikvorlesung:
Datentransformation zur Erzielung von Normalverteilung:
Wenn positive Schiefe vorliegt y= log(x) oder y=log(x+c)
wenn negative Schiefe vorliegt y= x n(hoch)
OK, das habe ich gemacht. Nun mache ich mit SPSS den Test auf Normalverteilung hinterher, und dann kommt bei K-S rauss, ich könne von Normalverteilung ausgehen und bei Shapiro-Wilk eben nicht.
Da ich aber eine Korrelationsmatrix erstellen soll, sollten die Wert eben möglichst einer Normalverteilung folgen laut Skript.
Dieses möglichst, verwirrt mich eben. Woher kannich wissen, ob es nun ok ist oder nicht?
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 18:37 Di 28.02.2012 | Autor: | DaniS |
hmhm, ok, ich glaube ich bin einfach total verwirrt gerade
Ich weiß nicht welcher Verteilung meine Daten folgen, ich dachte nur, ich müsste sie transformieren wenn si enicht der Normalverteilung folgen, denn das tun sie nicht. Ich hatte das so verstanden, daß ich z.B. den Logarithmus berechnen kann und dann würden sie eher einer Normalverteilung folgen.
Stimmt das denn nicht? Also bisher hat das so geklappt.
Nur eben, daß es nicht immer klappt und ich nicht weiß welche anderen Möglichkeiten es noch gibt, und dann eben das bereits beschriebene Problem, wie ich mich entscheiden soll, wenn2 verschiedene Tests zu anderen Ergebnissen kommen.
Liebe Grüße und sorry wegen der Verwirrung.
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 18:48 Di 28.02.2012 | Autor: | vivo |
> hmhm, ok, ich glaube ich bin einfach total verwirrt gerade
>
> Ich weiß nicht welcher Verteilung meine Daten folgen, ich
> dachte nur, ich müsste sie transformieren wenn si enicht
> der Normalverteilung folgen, denn das tun sie nicht. Ich
> hatte das so verstanden, daß ich z.B. den Logarithmus
> berechnen kann und dann würden sie eher einer
> Normalverteilung folgen.
> Stimmt das denn nicht?
Du hast es erkannt! Betrachte z.B. die chi quadrat verteilung, diese besitzt positive Schiefe! Simuliere Zufallszahlen aus der chi quadrat verteilung. Nehme dann den logarithmus dieser Daten. Für eine Zufallsvariable für die [mm]X \sim \chi^2[/mm] gilt, folgt doch nicht [mm]log (X) \sim \mathbf{N}[/mm]. Wenn es jetzt wie du geschrieben hast, so wäre, dass bei positiver Schiefe für die mit dem log transformierten Daten die Annahme der Normalverteilung aufrechterhalten werden kann, wäre dies in dem gerade gemachten Beispiel ja ein Fehler.
Also bisher hat das so geklappt.
> Nur eben, daß es nicht immer klappt und ich nicht weiß
> welche anderen Möglichkeiten es noch gibt, und dann eben
> das bereits beschriebene Problem, wie ich mich entscheiden
> soll, wenn2 verschiedene Tests zu anderen Ergebnissen
> kommen.
> Liebe Grüße und sorry wegen der Verwirrung.
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 18:21 Do 01.03.2012 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 15:20 Do 01.03.2012 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|