Fehlende Werte in Tabellen

<< Click to Display Table of Contents >>

Navigation:  Datenmodifikation > Fehlende Werte >

Fehlende Werte in Tabellen

Zur Ausgabe fehlender Werte in Tabellen gibt es folgende Optionen:

USEMISSING: Steuert die Auswertung fehlender Werte als 'normale' Ausprägungen (nicht empfohlen)

USECASES: Steuert die Ausweisung fehlender Werte in Kreuztabellen

EXCLUDEVALUES und RESTRICTVALUES: Aus-/Einschluss ausgewählter Werte in/aus die Berechnung statistischer Maßzahlen

CHECKMISSINGINMULTI: Definition eines Wertes als MISSING VALUE für Mehrfachnennungsvariablen.


UseMissing

Steuert die Auswertung von MISSING-Ausprägungen in Tabellen

Syntax:

USEMISSING = [ YES | NO ];

Voreinstellung: USEMISSING = NO;

Durch USEMISSING = YES; kann für alle folgenden Tabellen die Auswertung auch der fehlenden Werte angefordert werden. In der Folge werden die als MISSING definierten Werte als 'normale' Werte gezählt und in Berechnungen (z.B. von MEAN) einbezogen. Dies wird nicht empfohlen.


UseCases

USECASES steuert die Behandlung von Missing Values in Kreuztabellen.

Im Standardfall werden Zeilen und Spalten in Kreuztabellen unterdrückt, wenn für sie

a) kein VALUELABEL definiert ist oder

b) wenn die jeweilige Ausprägung in einer MISSING-Anweisung als Missing Value deklariert wurde oder

c) wenn eine Ausprägung aufgrund spezieller Kodierung (siehe MISSINGCHAR) als Missing Value erkannt wurde.

In den Tabellenkörper wird ein Fall immer nur dann aufgenommen, wenn für beide zu kreuzenden Variablen ein gültiger Wert vorliegt. Die Zählung im Tabellenrand (siehe FRAMEELEMENTS) und im Gesamt-N der Tabelle kann allerdings durch Setzung von USECASES beeinflusst werden. Dabei ist für die Bewertung eines Falles als gültig nur die Eigenschaft MISSING ausschlaggebend; die Existenz eines Labels ist hierfür unmaßgeblich.

Generell gilt:

1.Ein Fall wird gezählt (erscheint also in der Tabellenrandzählung und damit in der Prozentuierungsbasis), wenn er anhand der Missing Values im Lichte der unten beschriebenen Konstellationen gültig ist bzw. wenn die Tabelle mit der Maßgabe USEMISSING = YES; gezählt wird;

2.Ein Fall wird gedruckt (erscheint also auch im Tabellenkörper), wenn zusätzlich auch für beide Dimensionen ein gültiges VALUELABEL vorhanden ist oder für die jeweilige Variable PRINTALL = YES; gesetzt ist.

Syntax:

USECASES = [ ANYCASE |  XANDYVALID | XORYVALID | XVALID | YVALID ] ;

Zu den einzelnen Optionen:

USECASES = ANYCASE; 

Alle Fälle gehen in das Tabellen-Gesamt-N ein, soweit sie nicht durch SELECT bzw. TABSELECT ausgeschlossen wurden. In die Rahmenzellen gehen alle Fälle ein, für die auf der jeweiligen Variable ein gültiger Fall existiert. Die einzelnen Spalten und Zeilen werden deshalb nicht notwendigerweise auf 100% bzw. auf das Spalten- oder Zeilen-N addieren.

USECASES = XANDYVALID; 

X and Y Valid
Diese Einstellung ist die extremen Gegenposition zu ANYCASE. Nur dann, wenn ein Fall in der X-Variablen und der Y-Variablen gültig ist, wird der Fall verwertet. In das Tabellen-Gesamt-N gehen nur die Fälle ein, die sowohl bei der Variablen in der X-Richtung als auch bei der Variablen in der Y-Richtung gültige Werte haben. X- und Y-Richtung werden also bei dieser Einstellung symmetrisch behandelt. In die Randzellen der Y-Variable gehen nur die Fälle ein, für die auch ein gültiger X-Wert existiert und umgekehrt.

USECASES = XORYVALID; 

X or Y Valid
In das Gesamt-N geht jeder Fall ein, für den entweder ein gültiger X-Wert oder ein gültiger Y-Wert vorliegt. In die jeweiligen Randverteilungen gehen alle gültigen Werte der jeweiligen Randverteilung ein. Auch diese Auswertung ist für X und Y symmetrisch.

USECASES = XVALID; 

X Valid
In das Gesamt-N gehen alle Fälle ein, für die gültige Werte auf der X-Variablen vorliegen. In die Randverteilung von X gehen alle Fälle ein, für die ein gültiger Wert für die X-Variable vorhanden ist. In die Randverteilung der Y-Variablen gehen alle Fälle ein, für die sowohl ein gültiger X-Wert als auch ein gültiger Y-Wert vorliegt. Diese asyymetrische Option behandelt die X- und die Y-Richtung der Tabelle unterschiedlich.

USECASES = YVALID; 

Y Valid
Asymmetrisches Pendant zu XVALID. In das Gesamt-N gehen alle Fälle ein, für die gültige Werte für die Y-Variablen vorliegen. In die Randverteilung von Y gehen alle Fälle ein, für die ein gültiger Wert für die Y-Variable vorhanden ist. In die Randverteilung der X-Variablen gehen alle Fälle ein, für die sowohl ein gültiger X-Wert als auch ein gültiger Y-Wert vorliegt.

Anmerkung zur Randverteilung bei verschachtelten Tabellen:

Generell funktioniert die USECASES-Voreinstellung auch bei verschachtelten Tabellen so wie oben dargelegt, bloß ist es bei diesen etwas komplexer. Bei TABLE = a b BY c d; gibt es bspw. vier Randverteilungen, die verschieden sein können, nämlich für die logischen Tabellen a by c, b by c, a by d und b by d. Die USECASES-Regeln gelten für jede logische Tabelle; d.h. die Randverteilung von a kann in der Tabelle "a by c" anders aussehen als in der Tabelle "a by d", weil in der Variablen c unter Umständen andere Fälle gültig sind als in der Variablen d. Für die Prozentuierung innerhalb der "Untertitelten" wird die richtige Randverteilung ermittelt und herangezogen. Für jede dieser Tabellen kann sich auch ein anderes Tabellen-Gesamt-N ergeben.

Im Tabellenrahmen kann aber nur eine Randverteilung dargestellt werden: nach GESStabs-Konvention die Randverteilung, die sich aus der Kreuzung mit jeweils der ersten Variablen beider Richtungen ergibt. In geschachtelte Tabellen können also Prozentuierungsbasen eingehen, die in der Randverteilung nicht abgebildet werden (können). Wenn dies zu Missverständnissen führen kann, ist anzuraten, gefilterte Absolutspalten bzw. -zeilen explizit einzufügen (ABSOLUTE <Varname>), oder die Tabellen auseinanderzuziehen und separat darzustellen.


ExcludeValues, RestrictValues

Ausschluss bzw. Einschluss ausgewählter Werte aus der Berechnung statistischer Maßzahlen in TABLE

Syntax:

EXCLUDEVALUES <varlist> = <valuelist>;
RESTRICTVALUES <varlist> = <valuelist>;

Diese spezialisierte Version von MISSING betrifft nur die Auswertung von Variablen in Tabellen vom Typ TABLE (und deren Ableger OVERVIEW/XOVERVIEW), in denen CELLELEMENTS mit einer zusätzlichen Variablen (z.B. MEAN(var)) ausgewertet werden.

Die Ausprägungen der Variablen, die hier in der <valuelist> benannt werden, sind für Häufigkeitsauswertungen des Typs TABLE = A BY B; gültig. Taucht aber eine Variable in einem CELLELEMENT wie MEAN(var) oder SUM(var) etc. auf, dann gelten die in EXCLUDEVALUES benannten Codes als MISSING (eben: excluded). Es ist immer dann nützlich, wenn eine Variable Codes enthält, die zwar für die Häufigkeitsdarstellung gültig sind, aber in Mittelwerte etc. nicht eingehen sollen. Anderenfalls müsste man zwei Variablen vorhalten: eine, die für die Häufigkeitsverteilung alle Werte enthält, und eine reduzierte für die Mittelwerte.

RESTRICTVALUES funktioniert genau anders herum: nur die benannten Wertebereiche gehen in die Berechnungen ein. Diese Restriktionen gelten nur bei Verwendung der angesprochenen Variablen in CELLELEMENTS von Tabellen, die eine Variable als Argument haben, wie z.b. MEAN, MEDIAN oder SUM.


CheckMissingInMulti

Betrifft MultiQ-Variablen

Syntax:

CHECKMISSINGINMULTI = [ YES | NO ];

Im Standardfall gilt eine Mehrfachnennungs-Variable dann als MISSING, wenn sie keinen gültigen Wert enthält, ein spezieller Code ist i.d.R. hierfür nicht vorgesehen - aber möglich. Damit der definierte MISSING-Code bei der Tabellenausgabe als MISSING gekennzeichet wird, muss der MISSING-Zustand generell ausgewertet werden. (Dies weicht von der gängigen Praxis ab, dass MISSING in Mehrfachnennungs-Variablen über eine leere Wertemenge (und ggf. AUTONOANSWER) abgehandelt wird.

Besteht in einer Tabellierung die Notwendigkeit, einzelne existierende Codes als MISSING zu behandeln, kann man dies mit diesem Schalter erreichen. Er bezieht sich nur auf den Tabellendruck; als Voreinstellung gilt er für alle in der Folge definierte Tabellen bis zum nächsten CHECKMISSINGINMULTI-Statement.