Wednesday 1 March 2017

Subpopulation In Stata Forex

HINWEIS: Die IDRE Statistische Beratungsgruppe wird die Website im Februar auf das WordPress CMS migrieren, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata Class Notes Zählen von n bis N Einführung Stata hat zwei eingebaute Variablen namens n und N. N ist Stata-Notation für die aktuelle Beobachtungsnummer. N ist 1 in der ersten Beobachtung, 2 in der zweiten, 3 in der dritten, und so weiter. N ist die Stata-Notation für die Gesamtzahl der Beobachtungen. Wir können sehen, wie n und N arbeiten. Wie Sie sehen können, enthält die Variable id die Beobachtungsnummer, die von 1 bis 7 läuft, und nt die Gesamtzahl der Beobachtungen, die 7 ist. Zählen mit mit n und N in Verbindung mit dem Befehl kann einige sehr nützliche Ergebnisse liefern. Natürlich, um den Befehl zu verwenden, müssen wir zuerst unsere Daten auf der Variablen sortieren. Nun ist n1 die Beobachtungsnummer innerhalb jeder Gruppe und n2 die Gesamtzahl der Beobachtungen für jede Gruppe. Um die niedrigste Punktzahl für jede Gruppe aufzulisten, verwenden Sie die folgenden Punkte: Um die höchste Punktzahl für jede Gruppe aufzulisten, verwenden Sie die folgenden: Eine andere Verwendung von n Lets verwenden n, um herauszufinden, ob es doppelte ID-Nummern in den folgenden Daten gibt: Wie sich herausstellt, Beobachtungen 6 und 7 haben die gleichen ID-Nummern und aber unterschiedliche Notenwerte. Duplikate finden Mit Hilfe von N können Sie doppelte Beobachtungen finden. In diesem Beispiel sortieren wir die Beobachtungen durch alle Variablen. Dann verwenden wir alle Variablen in der by-Anweisung und setzen gesetzt n gleich der Gesamtzahl der identifizierenden Beobachtungen. Schließlich listen wir die Beobachtungen auf, für die N größer als 1 ist, wodurch die doppelten Beobachtungen identifiziert werden. Wenn Sie eine Menge von Variablen in der Datenmenge haben, könnte es eine lange Zeit dauern, um sie alle zweimal einzugeben. Wir können die Wildcard verwenden, um anzuzeigen, dass wir alle Variablen verwenden möchten. Weiter in den neuesten Versionen von Stata können wir sortieren und in eine einzige Aussage kombinieren. Unten ist eine vereinfachte Version des Codes, die genau die gleichen Ergebnisse wie oben ergeben wird. Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden. NOTICE: Die IDRE Statistische Beratungsgruppe wird die Website migrieren die Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata FAQ Wie kann ich analysieren eine Subpopulation meiner Umfrage Daten in Stata HINWEIS: Diese Seite wurde mit Stata 9 erstellt. Alle Code auf dieser Seite wird Arbeit mit Stata 10. Der Code auf dieser Seite funktioniert nicht mit Stata 8 (oder früheren Versionen von Stata). Bei der Analyse von Umfragedaten ist es üblich, nur einen bestimmten Befragten, vielleicht nur Frauen, oder nur Befragte über 50 Jahre auszusehen. Bei der Analyse dieser Subpopulationen (AKA Domains) müssen Sie die entsprechende Option nutzen. Stata 9 hat zwei Subpopulation Optionen, die sehr flexibel und einfach zu bedienen sind. Die Verwendung der Subpopulation Option (en) ist bei der Analyse von Umfragedaten äußerst wichtig. Ist der Datensatz Teilmenge, dh dass Beobachtungen, die nicht in die Subpopulation aufgenommen werden sollen, aus dem Datensatz gelöscht werden, können die Standardfehler der Schätzungen nicht korrekt berechnet werden. Wenn die Subpopulationsoption (en) verwendet wird, werden bei der Berechnung der Schätzung nur die von der Subpopulation definierten Fälle verwendet, aber alle Fälle werden bei der Berechnung der Standardfehler verwendet. Weitere Informationen zu diesem Thema finden Sie unter Sampling Techniques, Third Edition von William G. Cochran (1977) und Small Area Estimation von J. N. K. Rao (2003). Um der Konsistenz zu dienen, werden wir den Mittelbefehl für alle unsere Beispiele verwenden. Allerdings funktionieren die Subpop - und Over-Optionen für alle Svy-Befehle gleich. Wir werden mit dem Mittel unserer kontinuierlichen Variablen beginnen. Als nächstes werden wir zwei Variablen berücksichtigen, die mit der Subpop-Option verwendet werden sollen. Das ist codiert 01, und beide. Die codiert ist 12. Wie Sie sehen werden, behandelt die Subpop-Option diese beiden Variablen unterschiedlich. Hier können wir sehen, dass yrrnd codiert ist 01. (Diese fehlende Option wird hier verwendet, um zu zeigen, dass es keine fehlenden Werte für diese Variable gibt. Wir wollen das später noch wissen.) Beachten Sie in der Ausgabe des Befehls svy: tab Es gibt 789,6 Fälle codiert 1. (Es ist nicht eine ganze Zahl, weil wir diesen Wert mit den Wahrscheinlichkeitsgewichten schätzen.) In der Ausgabe des Svy: Mittelbefehls sehen wir auch, dass 789.552 Fälle in der Subpopulation enthalten sind. Jetzt können wir versuchen, eine Variable codiert 12 anstelle von 01 zu verwenden. Hier sehen wir, dass beide codiert sind 12. (Diese fehlende Option wird hier verwendet, um zu zeigen, dass es keine fehlenden Werte für diese Variable gibt. Wir wollen das später noch wissen .) Beachten Sie in der Ausgabe des Befehls svy: tab, dass es 1888 Fälle codiert 1. Allerdings, in der Ausgabe des svy: mean Befehl, sehen wir, dass alle Beobachtungen, 6194 Fälle, in der Subpopulation enthalten sind. Dies ist, weil die Subpop-Option muss eine truefalse Variable haben. Wie auf Seite 39 des Stata 9-Survey-Handbuchs angegeben, wird bei der Verwendung der Subpop-Option die Subpopulation tatsächlich durch die 0s (false) definiert, die angeben, dass die Fälle von der Subpopulation ausgeschlossen sind. Nicht-0-Werte sind in der Analyse enthalten, mit Ausnahme fehlender Werte, die von der Analyse ausgeschlossen sind. Weil wir keine Fälle als 0 codiert haben, sind alle Fälle in der Subpopulation enthalten, wie in der Note in der Ausgabe erklärt. Jetzt können wir eine Kopie von beiden erstellen und die 1s auf 0s umstellen. Wir werden auch einige Werte fehlen lassen, um zu sehen, was mit fehlenden Werten in der Subpopulationsvariable passiert. Die Ausgabe des Tab-Befehls zeigt uns, dass die Rekodierung wie geplant gegangen ist. Die Ausgabe des Befehls svy: mean zeigt an, dass alle Fälle, die nicht codiert sind oder fehlen (die 424 Fälle, die als 2 codiert sind) in der Subpopulation enthalten sind. Beachten Sie die Notiz, die Stata zur Verfügung stellt, wenn die Subpopulationsvariable nicht codiert ist. 01. Sie können auch bei der Definition Ihrer Subpopulation verwenden. Es sollte betont werden, dass dies sehr unterschiedlich ist von der Verwendung, wenn Fälle aus einer Analyse zu entfernen. Wenn die Option in der Subpop-Option verwendet wird, werden keine Fälle aus der Analyse entfernt. Die Fälle, die von der Subpopulation ausgeschlossen sind, werden bei der Berechnung der Standardfehler immer noch verwendet, wie sie sein sollten. Sie können entweder Subpop oder Over mit mehreren Variablen verwenden, um die Subpopulation zu erstellen, die Sie wollen. Lets sehen einige Beispiele mit der Über-Option. Zuerst werden wir yrrnd verwenden. Unsere 01 Variable, dann beides. Unsere 12 Variable. Beachten Sie, dass sich die Ausgabe von der Ausgabe mit der Subpop-Option unterscheidet, da beide Kategorien der Variablen angegeben sind und es keine Notiz gibt, wenn eine 12 Variable verwendet wird. Bitte beachten Sie, dass die Überoption nur für die Befragungsbefehle verfügbar ist. Anteil Verhältnis und insgesamt. Jetzt können wir beide yrrnd und beide als subpopulation Variablen verwenden. Zuerst verwenden wir den Befehl svy: tab, um sicherzustellen, dass es Fälle in allen vier Kategorien gibt. Dann verwenden wir den Svy: mean Befehl mit der over Option. Im Folgenden schaffen wir eine neue Variable aus emer mit vier Kategorien. Dann werden wir diese Variable mit yrrnd verwenden und beide Kombinationen der Variablen werden in der Ausgabe angezeigt. Dies ist oft sehr nützlich und erspart Ihnen, eine neue Subpopulationsvariable zu erstellen. Wenn jedoch jede Ihrer Variablen viele Kategorien hat, kann die Ausgabe lang und schwerfällig werden, besonders wenn man sich nur für einige Kombinationen von Kategorien interessiert. Die Subpop-Option kann mit der Option over kombiniert werden. Dies ist praktisch, denn wenn kann nicht mit der über Option verwendet werden. Durch die Kombination der Optionen können Sie quotthe am besten von worlds. quot Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden.


No comments:

Post a Comment