In- und Output von Datensätzen

<< Click to Display Table of Contents >>

Navigation:  Daten und Datensatz >

In- und Output von Datensätzen

GESStabs kann Daten in folgenden Formaten einlesen und produzieren:

SPSS-Systemfile, *.sav

CSV-Datei

Als ergänzende Datenquellen kennt GESStabs folgende Formate:

OpenQ-Files, Textdateien

assoziierte Datenfiles, ASSOC

Für die besonders schnelle Verarbeitung großer Datenmengen stellt GESStabs ein proprietäres Datenformat bereit:

GESStabs-invertierte Datensätze, *.inv

Aus Kompatibiltätsgründen funktioniert auch die Verarbeitung „historischer“ Dateiformate (siehe Anhang):

ASCII

Dbase

ColumnBinary

Beachte für den Dateninput: Die gleichzeitige Verwendung von SPSSINFILE, CSVINFILE, INVERTIN, DATAFILE oder COLBININFILE ist nicht möglich.


Formatübergreifende Optionen

FileKey

Option für den Fall, dass mehrere Datensätze hintereinander eingelesen werden bzw. ergänzende Daten hinzugefügt werden

Syntax:

SPSSINFILE  [ FILEKEY <key> ] = <filepath>;
CSVINFILE  [ FILEKEY <key> ] [ <delimchar> ] = <filepath>;

DATAFILE [ FILEKEY <key> ] = <filepath>;

OPENQFILE [ FILEKEY <key> ] [ ALLOWEMPTY ] = <filepath>;        
ASSOCFILE [ FILEKEY <filekey> ] [ BIG DBASEIN SPSS ] = 
<filename> KEY <keyvar> [ <start> <len> ] | [ keyField ] ;

FILEKEY bietet eine komfortable Lösung für ein Spezialproblem, das vor allem bei mehrjährigen Befragungswellen auftritt: als Schlüssel dienen IDs, die über mehrere Wellen mehrfach auftreten können, z.B. eine Personen-ID aus einem Panel. Mehreren Ursprungsdatensätzen (SPSS, CSV oder ASCII) sind dann auch mehrere Datensätze mit offenen Antworten zuzuordnen. Auch in den Daten aus ergänzenden Datensätzen sind dann dieselben IDs mehrfach vorhanden und erlauben allein keine sichere Zuordnung.

Der Dateninput via SPSSINFILE, CSVINFILE und DATAFILE erlaubt es, eine Reihe von Input-Datenfiles (Wellen) nacheinander zu verarbeiten. Auch die schlüsselbasierten Informationen (OPENQFILE und ASSOCFILE) können aus beliebig vielen Einzeldateien verarbeitet werden.

Das Problem, das hier zu lösen ist, ist die richtige, wellenübergreifende Zuordnung über die ID. Die Syntax aller genannten Filetypen bietet hierfür die Option FILEKEY. Der Mechanismus ist extrem einfach: Ursprungs-Datenfiles werden mit einem FILEKEY 'markiert'. Ihnen wird Zusatzinformation anschließend nur aus ASSOCFILEs oder OPENQFILEs zugeordnet, die denselben FILEKEY tragen.

Zum Beispiel: In allen folgenden Ursprungsdatensätzen, hier in Form von CSVINFILEs, gibt es eine Schlüsselvariable panelID. In den drei Klassen von Dateien before2016, 2016, 2017 tritt dieser Schlüssel jeweils nur einmal auf, über diese Klassen hinweg aber mehrfach:

CSVINFILE FILEKEY before2016 = "..\DATA2014\data.csv";

CSVINFILE FILEKEY before2016 = "..\DATA2015\data.csv";

CSVINFILE FILEKEY 2016 = "..\DATA2016\data.csv";

CSVINFILE FILEKEY 2017 = "..\DATA2017\data.csv";

In diesen folgenden Dateien sind die einzelnen Datensätze über panelID indiziert. Hier gilt dasselbe: innerhalb der Klassen ist der Schlüssel panelID eindeutig, über die Wellen hinweg nicht.

KEY OPENQFILE = panelID;

OPENQFILE FILEKEY before2016 = "..\OPEN2014\opn.*";

OPENQFILE FILEKEY before2016 = "..\OPEN2015\opn.*";

OPENQFILE FILEKEY 2016 = "..\OPEN2016\opn.*";

OPENQFILE FILEKEY 2017 = "..\OPEN2017\opn.*";

Über die FILEKEY-Komponente der Input-Statements kann GESStabs die Informationen nun korrekt zuordnen.

Variableneigenschaften für Dateninput und -output

Syntax:

<Keyword> <varlist> = [ YES | NO ];

NOINPUT

Variable hat bei Dateninput legal keinen Wert (keine Fehlermeldung durch GESStabs)

STATIC

Wert einer Variable wird bei Einlesen eines neuen Datensatzes beibehalten

NOOUTPUT

Inhalt der Variable nicht ins Output-File übertragen (speziell für SPSS-Output: siehe NOSPSS)

StoreAlpha

Inhalt einer OPEN-Variable nicht als Code, sondern als Zeichenkette ausgeben