01 – Voraussetzungen an den Datensatz

Wir erklären kurz und knapp in welcher Struktur und in welchem Format der Datensatz vorliegen muss. Detaillierter hier

Format

Der Haushaltsdatensatz muss als .CSV Datei vorliegen, damit er hochgeladen werden kann. Klassische Excel-Formate wie XLSX oder XLS können als .CSV Datei gespeichert werden. Dies lässt sich mit der Open Source Software Libre Office häufig einfacher erledigen als mit Excel. Das Encoding der Datei sollte UTF-8 sein. Weitere Infos finden sich unter Datenstandard.

Leider werden Haushaltsdaten immer wieder als PDF veröffentlicht, damit können wir nichts anfangen, da die Daten aus dem PDF befreit werden müssen. Dies ist nicht so einfach, dabei unterstützen kann das Open Source Tool Tabula.

Bei PDF-Dateien, lohnt es sich in der zuständigen Verwaltung nachzufragen und auf einer maschinen-lesbaren (z.B. CSV) Datei zu bestehen. Der Behauptung “man könne Haushaltsdaten nur im PDF exportieren”, entgegnen Sie, dass auch Buchhaltungsprogramme ein PDF erst aus Rohdaten erzeugen müssen.

Das Minimum an Informationen

In der ersten Zeile der Datei müssen die Überschriften der Spalten stehen, darauf folgen in der zweiten Zeile direkt die Informationen. Ein Beispiel dafür finden sie hier. Das Minimum an Informationen ist eine Zeitinformation (welches Jahr), ein Betrag, die Richtung (Einnahme oder Ausgabe) und eine Bezeichnung für den Haushaltsposten.

Dabei muss die Struktur der Daten im long Format vorliegen, d.h. genau ein Zeitpunkt und ein Betrag pro Zeile. Sollten die Daten in einer anderen Struktur vorliegen können diese zum Beispiel mit OpenRefine umstrukturiert werden.

zum nächsten Schritt