Frag den Staat

Letzte Woche war re:publica in Berlin, mit vielen Veranstaltungen rund um Transparenz, Beteiligung, Open Data und Informationsfreiheit. Dort habe ich unter anderem erfahren, dass Frag den Staat nun auch NRW-Behörden unterstützt. Und ich habe die deutschen Informationsfreiheitsgesetze (IFG) noch mehr zu würdigen gelernt.

Hinter dem Wort Informationsfreiheitsgesetz verbirgt sich das Recht eines Bürgers, Informationen der Verwaltung/Regierung einzusehen. Ganz ohne Begründung. Einfach so. Und selbstverständlich mit ein paar Ausnahmen, die vor allem mit Datenschutz, aber auch mit Geschäftsgeheimnissen und der Wahrung der Inneren Sicherheit begründet werden.

Dieses Recht ist keine Selbstverständlichkeit. In Nordrhein-Westfalen gibt es das seit 2002 und auf Bundesebene seit 2006. Wer einen Eindruck bekommen möchte, wie langwierig und schwierig die Einführung des IFG auf Bundesebene war, kann sich dies von Jörg Tauss, der daran als Mitglied des Bundestags für die SPD mitgewirkt hat, in einem Vortrag vom Chaos Communication Camp 2005 erklären lassen.

In fünf deutschen Bundesländern können sich die Bürger noch nicht auf ein IFG berufen: Niedersachsen, Hessen, Sachsen, Bayern und Baden-Württemberg. Die Einwohner dieser Bundesländer kommen leichter an amtliche Dokumente aus den USA, England oder Schweden, als sie Zugriff auf Dokumente ihrer eigenen Landesbehörden erhalten.

Frag den Staat (Screenshot)

Mit der Plattform Frag den Staat gibt es seit August letzten Jahres ein unabhängiges, von Freiwilligen (namentlich allen voran Stefan Wehrmeyer) entwickeltes Online-Angebot, mit dem Anfragen im Sinne der IFG einfach und schnell erstellt werden können. Einfach eine Behörde auswählen, ein Anliegen formulieren und absenden. Es kann in den bereits gestellten Anfragen anderer Nutzer recherchiert werden, sofern die Urheber diese öffentlich gemacht haben.

Seit wenigen Tagen unterstützt Frag den Staat auch Anfragen an Behörden und Verwaltungen in Nordrhein-Westfalen. Damit sind auch die Städte und Gemeinden inbegriffen. Ein guter Grund, das Angebot auch unter den Freunden von Offenes Köln zu verbreiten.

Was wolltest Du schon immer mal von einem Amt oder Ministerium wissen?

Tipps für die gezielte Suche

Die Suche von Offenes Köln ist mächtiger, als sie aussieht. Dieser Artikel verrät ein paar Tricks, die sonst momentan noch nirgendwo dokumentiert sind.

Tipp 1: Dokumente mit Begriff im Titel finden

Wer einfach nach ehrenstraße sucht, findet alle Dokumente, in denen das Wort irgendwo vorkommt. Möchte man aber nur solche Dokumente finden, die das Wort im Titel enthalten, sucht man stattdessen nach title:ehrenstraße.

Tipp 2: Exakte Begriffs-Kombinationen finden

Wenn man bei der Suche mehrere Begriffe einfach hintereinander schreibt, werden Dokumente gefunden, die alle Begriffe enthalten. Dabei spielt es keine Rolle, ob die Begriffe direkt nacheinander vorkommen oder an ganz verschiedenen Stellen. Beispiel:

pft belastung

Möchte man, dass die Fundstellen die Begriffe exakt in der gesuchten Reihenfolge aufweisen, setzt man dazu die Begriffe in Anführungszeichen:

"pft belastung"

Tipp 3: Entweder A oder B oder C finden

Für viele Themen gibt es mehr als nur einen Begriff. Wer ein einziges Suchergebnis mit möglichst allen relevanten Treffern zu einem bestimmten Thema möchte, der kann mehrere Suchbegriffe mit einer logischen ODER-Verknüpfung kombinieren. Beispiel:

pft OR "perfluorierte tenside" OR pfc OR "perfluorierte chemikalien" OR "polyfluorierte chemikalien"

Der Operator “OR” dient dabei zur Verknüpfung der alternativen Schreibweisen. Er darf übrigens auch in Kleinbuchstaben geschrieben werden.

Tipp 4: Treffer mit bestimmten Begriffen ausschließen

Wer sich für alles zum Thema “sportvereine” interessiert, aber Treffer mit dem Stichwort “schützen” vom Suchergebnis ausschließen will, kann sich mit dem Minus-Vorzeichen helfen:

sportverein -schützen

Alle diese Suchabfragen funktionieren natürlich genau so gut über die API. Alles, was über das Suchfeld eingegeben werden kann, kann analog über den Parameter q an die Methode /api/documents übergeben werden.

Das Blog ist umgezogen

Heute ist dieses Blog von tumblr auf Worpress (selbst gehostet) umgezogen. So angenehm es auch anfangs war, mal eben einen Account bei tumblr zu erzeugen und sofort losschreiben zu können, die Anforderungen an dieses Blog sind doch über das hinausgewachsen, was tumblr bietet.

Das ist alles in allem kein Drama. Dass es irgendwann notwendig werden würde, war mir von vornherein bewußt. Nur hatte ich anfangs einfach keine Zeit, mich damit näher zu beschäftigen. Und das Blog war doch zunächst mal relativ unwichtig. Das hat sich in meinen Augen geändert. Es kommt viel Feedback über das Blog. Ich erfahre immer wieder in Gesprächen mit Leuten, dass sie dieses oder jenes aus meinen Blogbeiträgen wissen. Das heißt, dieses Blog ist für mich gar nicht mehr weg zu denken und muss entsprechend vernünftig funktionieren.

Warum der Wechsel? tumblr ist nach meiner jetzigen Erfahrung eindeutig nicht auf textlastige Artikel ausgelegt. Das fängt schon bei den Themes, die zur Verfügung stehen, an. Zwar kann man problemlos mal eben einen Artikel posten, der nur aus einem Video besteht. Will man aber ein Video oder sogar eine Google-Docs-Tabelle, macht einem der Editor von tumblr immer wieder den Code kaputt, wenn man nicht aufpasst. Nicht zuletzt fehlten mir aber auch Trackbacks/Pingbacks. Schließlich ist die Blogosphäre keine Einbahnstraße.

Die Migration zu WordPress war alles in allem wenig schmerzhaft. Anfangs habe ich es mit dem tumblr-Import-Plugin versucht, was jedoch gar nicht funktioniert hat. Es ist schlichtweg nichts passiert. Eine Google-Suche weiter bin ich dann auf ein Tumblr2Wordpress Export Tool gestoßen, das seinen Dienst hervorragend verrichtet hat. Einfach den Kurznamen des tumblr Blogs angeben, den Modus “WordPress (Self hosted)” auswählen und schon startete der Download. Das ganze dann als XML-Import in WordPress importiert.

Ein bisschen manuelle Nacharbeit war bei Video-Beiträgen notwendig. Die hatten nun keinen Inhalt mehr. Dafür war der gesamte Text des Inhalts in den Titel gerutscht, was auch für sonderbar lange URL sorgte.

Wie sich das gehört, wenn sich die URLs einer Website ändern, wird von den alten auf die neuen URLs weiter geleitet. Es sollte also niemand aufgrund des Umzugs mit einem 404-Fehler konfrontiert werden.

Die Weiterleitungen dienen auch dazu, die Disqus-Kommentare zu migrieren. Disqus hat eine Migrationsfunktion, die einfach die HTTP-Redirects auswertet und damit die Kommentar-Threads automatisch mit den neuen URLs verbindet. Sobald das erfolgreich abgeschlossen ist, gibt es hier im Blog auch wieder eine Kommentarfunktion.

Übrigens: Wer den RSS-Feed des Blogs abonniert hat, kann auf die neue Feed-URL umstellen:

http://blog.offeneskoeln.de/feed/

Es gibt zwar auch für die Feed-URL einen Redirect, aber besser ist es sicherlich, längerfristig die richtige URL zu nutzen.

Von Datei-Duplikaten zu Beziehungen zwischen Dokumenten

Vorwarnung: Hier geht es um Daten, aber nicht nur. Sondern auch im Information und Erkenntnisse daraus.

Aus reiner Neugier, aber auch um die API von Offenes Köln zu verbessern, habe ich für alle Dateianhänge einen Hash, oder zu Deutsch: eine Prüfsumme, erstellt. Für die, die nicht wissen, was das ist: Eine Prüfsumme ist so etwas wie ein Fingerabdruck. Sie wird anhand des vollständigen Inhalts der jeweiligen Datei errechnet und ist genau so einzigartig wie die Datei selbst.

Damit lässt sich nun in den inzwischen mehr als 60.000 Dateien ermitteln, welche Dateien exakt identisch sind.

Wofür könnte das gut sein?

Sehr naheliegend ist, dass man Speicherplatz sparen kann, wenn man statt vieler identischer Dateien jeweils nur eine ablegt.

Auch interessant ist die mögliche Ersparnis von (automatisierter) Arbeit. Zum Beispiel kann man sich das Extrahieren von Texten, das Erzeugen von Vorschaubildern und das Überprüfen auf Urheberrechtsverletzungen bzw. Abmahnrisiken sparen, wenn man dies für eine identische Datei schon einmal gemacht hat.

Solche Hashs werden aber auch sehr gerne genutzt, um zu überprüfen, ob man eine Datei vollständig und unbeschädigt heruntergeladen hat. Oder, mit anderen Worten, um aus beliebigen Gründen festzustellen, ob die eigene Kopie der Datei identisch ist mit dem Original. Das kann zum Beispiel für Nutzer der API sehr hilfreich sein, um lokal vorgehaltene Kopien einer Datei zu verifizieren. Daher wird der Hash zukünftig auch Teil der API-Ausgabe zu den Dateianhängen sein.

Doch das sind alles technische Vorteile. Hier ist ein viel interessanterer:

Bei uns kann der Hash helfen, Beziehungen zwischen Dokumenten aufzudecken. Wenn mehrere Dokumente (z.B. Mitteilungen, Anfragen, Anträge, …) dieselbe Datei als Anhang aufweisen, sagt diese Gemeinsamkeit dann nicht etwas über diese Dokumente aus? Ist es nicht wahrscheinlich, dass die Dokumente thematisch ähnlich sind?

Im Fall des Ratsinformationssystems gibt es häufiger den Fall, dass eine Mitteilung oder eine Beschlussvorlage der Stadtverwaltung in verschiedenen Gremien vorgelegt wird. Inhaltlich geht es darin um das gleiche. Hier ein Beispiel:

Der Dateianhang 187074 (PDF, 12 MB) enthält in einem Dokument Pläne von Kreuzungen in verschiedenen Stadtbezirken. Dieselbe Datei ist bei den folgenden sechs Beschlussvorlagen zu finden:

Die sechs Beschlussvorlagen sind alle in verschiedenen Bezirksvertretungen vorgelegt worden. In allen geht es darum, wie an Kreuzungen die Ampeln ersetzt werden können um Kosten zu sparen und/oder den Verkehr flüssiger zu regeln.

Ohne die Beziehung, die durch den gemeinsamen Dateianhang hergestellt werden kann, wüsste man im Kontext des einen Dokuments nichts von den anderen. Das heißt: Wer die Beschlussvorlage für die Bezirksvertretung Chorweiler findet, wird ohne diese Beziehung nur durch gezieltes Suchen davon erfahren, dass eine solche Vorlage auch in anderen Bezirksvertretungen behandelt wurde.

Insgesamt gibt es aktuell 639 solcher Fälle. Oder anders gesagt: 1.418 Dateianhänge sind Duplikate, die sich auf 639 unterschiedliche Dateien zurückführen lassen. Die besagte Beziehung wird sich also für etwa 1 Dokument aus 30 herstellen lassen.

Dabei soll es aber nicht bleiben. Es gibt auch andere interessante Beziehungen, die in den Daten stecken und darauf warten, sichtbar gemacht zu werden. Dies wird in manchen Fällen einfacher, in anderen Fällen aufwändiger. Ein paar Beispiele:

  • Auf welche Anfrage bezieht sich eine bestimmte Mitteilung (Antwort) aus der Verwaltung?
  • Auf welchen Antrag bezieht sich ein bestimmter Änderungsantrag?
  • Auf welchen Antrag folgte ein bestimmter Beschluss?
  • Welche Dokumente sind mit einem bestimmten Dokument inhaltlich ähnlich?
  • Welche Vorlagen/Anträge/Anfragen etc. wurden in Sitzungen gemeinsam behandelt?

Ihr seid herzlich eingeladen, weitere Ideen zu interessanten Beziehungen über die Kommentarfunktion zu ergänzen.

Wenn ein paar dieser Beziehungen explizit herausgearbeitet werden können, ist Offenes Köln schon einen ganzen Schritt weiter. Dann kann man Nutzern sinnvolle Links zur Navigation anbieten und es drängt sich gerade zu auf, diesen “Graphen” ansprechend und sinnstiftend zu visualisieren.

Die Darstellung der Beziehung “hat identischen Dateianhang” wird in die Planung für eines der nächsten Releases einfließen.

Nachtrag 24. März: Natürlich können die Beziehungen auch dazu dienen, die Wichtigkeit eines Dokuments zu bestimmen. Das ist das grundlegende Prinzip von Google’s PageRank-Algorithmus. Er geht von der Annahme aus, das Dokumente, die viele Verweise auf sich vereinen, wichtiger sind als Dokumente mit weniger Verweisen.

Unsere neue Karte

Seit heute gibt es auf der Startseite eine neue Karte. Unsere eigene.

“Aber die alte war doch auch schon sehr individuell” könnte man jetzt sagen. Das war sie, aber die neue hat einige Vorteile.

Vorteil 1: Sie ist kostenlos und bleibt es, egal wie viele Nutzer sie ansehen. Bisher wurde die Karte über den Dienst CloudMade bezogen. Dieser verlangt ab 250.000 abgerufenen Karten-Kacheln (das sind die Einzelbilder, aus denen die Kartenansicht zusammengesetzt wird) im Monat eine Gebühr. Im Februar hatten wir davon schon knapp 160.000 verbraucht. Wieviele es im März bisher waren, weiß ich leider nicht, denn das Reporting von Cloudmade stellt die aktuellen Daten sonderbarerweise erst gegen Monatsende zur Verfügung.

Vorteil 2: Die Karte ist nun besser anpassbar. Cloudmade hat zwar eine praktische und einfache Web-Oberfläche für die Anpassung der Darstellung. Allerdings kann man damit leider nicht alle Gestaltungsparameter beeinflussen. Die Eisenbahnschienen zum Beispiel waren deshalb auf einem ockergelben Gleisbett verlegt. Das hat die Schienen deutlich mehr hervorgehoben, als irgendwie sinnvoll wäre. Auch Beschriftungen lassen sich praktisch nicht anpassen, außer farblich. Unsere eigenen Kacheln sind mit TileMill gemacht. Da lässt sich – die notwendigen Kenntnisse vorausgesetzt – praktisch jedes noch so kleine Detail beeinflussen.

Vorteil 3: Einige weitere Problemchen der Cloudmade-Karte existieren bei unseren eigenen nicht. Unser Karten-Stil basiert auf sehr guten Vorlage (namentlich OSM Bright). Diese sorgt mit beträchlichtem Aufwand dafür, dass problematische Stellen wie z.B. die Übergänge zwischen verschiedenen Straßentypen, etwa an Autobahnauffahrten, vernünftig dargestellt werden. Bei der Cloudmade-Karte kam es auch häufiger zu angeschnittenen Beschriftungen an den Kachelgrenzen. Das ist bei dem Renderer von TileMill zwar nicht ausgeschlossen, aber sehr selten.

Vorteil 4: Die Cloudmade-Server schienen mir recht langsam. Nun werden die Kacheln von unserem eigenen Server ausgeliefert. Der steht im Zweifel näher am Nutzer als die von Cloudmade es tun. Damit das Laden der Kacheln schön schnell geht, werden die Zugriffe auf drei verschiedene virtuelle Hosts verteilt.

Vorteil 5: Wir können nun selbst bestimmen, wie oft wir die Kartendaten aktualisieren. Dabei ist die Datenbasis die gleiche wie vorher, nämlich OpenStreetMap.

Vorteil 6: Last but not least wird die Copyright-Zeile unter der Karte um einen Baustein kürzer. Cloudmade wollte Credits für die Kartendarstellung, auch wenn sie nicht von Cloudmade gestaltet wurde. Danach müssen wir uns nun nicht mehr richten.

Einen weiteren Grund, die Cloudmade Karte auszutauschen, hat Cloudemade ausgerechnet heute nachgeliefert, als bräuchte es noch ein bisschen mehr Überzeugungskraft, um uns loszuwerden. Ab vermutlich heute Mittag hat der Server überhaupt keine Kacheln mehr für unsere Karte ausgeliefert. Die Karte blieb einfach grau. Die Fehlermeldung des Tile-Servers: No such style. Aha. Das wird uns hoffentlich mit dem eigenen Server nicht passieren.

Weil es insgesamt nicht ganz problemlos war, hier noch ein paar Worte dazu, wie die Erzeugung der eigenen Kacheln letztlich funktioniert hat. Vielleicht hilft es ja jemandem weiter.

  • Unter Mac OS X hat es schon mal nicht funktioniert. Nachdem die Installation der TileMill-Umgebung mit allem, was dazu gehört, sehr langwierig war, wurde der Export der Kacheln immer wieder abgebrochen. Als er letztlich doch einmal komplett abgeschlossen wurde, fehlten etliche Kacheln. Auf der Karte blieben einfach viele Quadrate grau.
  • Erfolgreich war ich unter Ubuntu 11.10 (32 Bit). Ich habe mir dafür eine Virtual Box Umgebung mit 1 CPU, 4 GB RAM und 32 GB Festplatten-Image angelegt. MapBox stellt für Ubuntu ein Paket zu Verfügung. Die Anleitung hat für mich funktioniert.
  • Aber mit der TileMill-Installation ist es nicht getan. Man muss sich vorher Postgresql und PostGIS (über apt-get) installieren. Dann muss man eine Datenbank für die OpenStreetMap Daten anlegen und mit den PostGIS-Funktionen versehen. Und dann installiert man imposm, den Python-basierten OSM-Importer. Das erklärt MapBox alles in der OSMBright Quickstart Anleitung. Letztlich lädt man sich OSMBright als Template herunter und kopiert es unter anderem Namen in das TileMill Projektverzeichnis. Aber nicht einfach so, sondern schön über das make.py Script wie in der Anleitung beschrieben!
  • Das Exportieren der Kacheln hat anfangs hervorragend funktioniert. Dann habe ich den Bereich der Zoom-Stufen, die ich exportiere, von 11 bis 16 auf 11 bis 17 erweitert, damit man noch etwas tiefer in die Karte hineinzoomen kann. Mit dieser Einstellung ließ sich der Export nicht beenden. Nach ca. 40 Minuten, kurz vor Schluss, endete der Vorgang mit “Export process died”. Der Exporte funktionierte, nachdem ich die Zoom-Stufen wieder auf 11 bis 16 eingestellt habe.
  • Der Export generiert eine Mbtiles-Datei, was letztlich eine Sqlite-Datenbank ist, die sowohl die Kacheln als auch Metadaten enthält. Um die Kacheln einfach mit dem Webserver ohne zusätzliche Software auszuliefern, muss man sie noch mit einem Werkzeug namens mb-util aus der Mbtiles-Datei extrahieren. Dabei ist die Einstellung “—scheme=osm” essentiell, zumindest wenn man die Kacheln wie wir mit Leaflet darstellen möchte (für OpenLayers gilt vermutlich das gleiche). Sonst sind die Dateien nicht so benannt wie erwartet und es gibt jede Menge 404-Fehler und graue Quadrate statt Kartenkacheln.

Das zur Technik. Aber jetzt das wichtigste: Wie gefällt Euch die Karte?

Update 11. April 2012: Inzwischen habe ich einen Weg gefunden, die Kacheln zuverlässig und automatisierbar zu exportieren. Dazu generiert man zunächst aus der in TileMill erzeugten Konfiguration (die im Carto-Format vorliegt) eine Mapnik XML Datei. Dazu gibt es in TileMill das Kommandozeilen-Tool ‘carto’. Ich musste an der erzeugten XML-Datei noch die Pfade zu den Font-Dateien anpassen, da Mapnik in der XML-Datei relative Pfade erwartet. Mit dieser Datei und dem Script generate_tiles.py (das den eigenen Anforderungen angepasst wird) gelingt das Rendern der gewünschten Zoom-Stufen über die Kommandozeile.

Open Data Dialog mit der Verwaltung

Eine Frage, die immer wieder zu Offenes Köln gestellt wird, ist: Müssten die Verwaltungen so etwas nicht selbst anbieten? Meine Antwort ist ganz klar: Ja, im Prinzip schon. Dabei meine ich nicht alle denkbaren Funktionen, die ich mir noch für Offenes Köln vorstellen kann, aber ganz sicher die Basis, die Schnittstelle zu den Daten.

Ein Grund, warum es Offenes Köln trotzdem gibt, ist der, dass ich nicht darauf warten möchte, dass die Stadt Köln ihre ureigene Vorstellung von Open Data in der Lokalpolitik vorstellt. Vielmehr soll Offenes Köln jetzt schon Ideen sichtbar und anfassbar machen, die dann in den Prozess der Ausgestaltung kommunaler Open-Data-Angebote einfließen können, und zwar nicht nur in Köln.

Erfreulicherweise scheint dies tatsächlich zu funktionieren. In dieser Woche hatte ich zwei Termine mit Vertretern von Stadtverwaltungen, nämlich von Köln und Bonn.

Der Termin in Köln am Mittwoch fand auf Einladung von Sabine Möwes, Leiterin der Abteilung “E-Government und Online-Dienste”, statt.

Den aktuelle Stand zu Open Data in Köln sieht etwa so aus: Der Rat hat die Stadtverwaltung kürzlich (bzw. letztes Jahr) damit beauftragt, unter dem Titel “Internethauptstadt Köln” ein umfangreiches Konzept vorzulegen, bei dem Open Data und Open Government ein Aspekt sind. Nun wurde zum Thema Open Data eine Vorstudie beauftragt, die unter anderem rechtliche Fragen und die Frage der Prioritäten bei der Datenauswahl klären soll.

Am Mittwoch ging es ganz konkret um die Frage, wie Offenes Köln und Stadt Köln kooperieren könnten, um sich gegenseitig die Arbeit zu erleichtern. Die Stadt Köln, die ihr Ratsinformationssystem (RIS) von der Firma Somacos eingekauft hat, ist grundsätzlich daran interessiert, den Funktionsumfang des RIS in richtung Offene Schnittstellen erweitern zu lassen. Offensichtlich gibt es auch Signale von Somacos, dass dies durchaus im Sinne der Firma wäre. Vermutlich ist die Stadt Köln nicht die einzige Kommune unter den zahlreichen Somacos-Kunden, die Handlungsbedarf in Richtung Transparenz und Open Data sieht.

Unter dem Stichwort “Nähkästchen” kann ich kolportieren, dass Offenes Köln bei der Online-Redaktion der Stadt Köln unter anderem deswegen auf Interesse stößt, weil es der Stadt selbst aufgrund der fehlenden Schnittstelle leider nicht gelingt, die Dokumente des Somacos-RIS mit der Suchmaschine von stadt-koeln.de zu indizieren. Meine Antwort dazu lautet natürlich: Verwenden Sie einfach die offene API von offeneskoeln.de :)

Nebenbei habe ich erfahren, dass auch die aktuell beauftragte Vorstudie zu Open Data an bestimmten Punkten die Einbeziehung der Community vorsieht, beispielsweise bei der Frage, wie groß die Nachfrage an bestimmten Daten ist. Ich freue mich schon auf den Prozess!

Gestern Abend dann war ich Zeuge eines ersten Zusammentreffens zwischen Bonner Stadtverwaltung und Open Data Community. Zu dem Termin hatten Jan Erhardt und Fukami, zwei Entwickler und Grüne aus Bonn, eingeladen. Thema sollte ursprünglich sein: Sowas wie Offenes Köln auch für Bonn machen. Nachdem der Termin auch über die eine oder andere Mailingliste und über die Open-Data-Gruppe auf Facebook gestreut wurde, hatte sich auch Sven Hense, Leiter der Abteilung eGovernment der Stadt Bonn, als Teilnehmer angekündigt. Bonn hat, anders als Köln und viele andere Kommunen, ein vollständig in Eigenarbeit entwickeltes Ratsinformationssystem, und den Hauptverantwortlichen dafür hatte Herr Hense auch direkt mitgebracht. Dazu gesellten sich verschiedene Interessierte von Piraten, DIE LINKE, aus den Medien und der Öffentlichkeit. Das Ergebnis war eine Runde, die gespannt darauf lauschte, welche Pläne Herr Hense in Richtung Open Data verfolgt. Da im Bonner Stadtrat sämtliche Fraktionen einen Beschluss zu Open Data auf den Weg gebracht haben, wartet man dort nun nur noch auf eine Entscheidung des Hauptausschusses, um mit der konkreten Umsetzung zu beginnen. Herr Hense konnte berichten, dass die Stadt offene Arbeitsgruppen zu verschiedenen Themenschwerpunkten (z.B. Geodaten, Haushalt, …) bilden möchte. So kam das gestrige Treffen im richtigen Moment, um interessierte Teilnehmer für diese Gruppen zu gewinnen und Wünsche und Erwartungen aus der Community zu äußern.

Ein konkretes Ergebnis des Bonner Treffens: Stadtverwaltung und Community (Jan Erhardt und andere) werden sich unabhängig von den Arbeitsgruppen auf dem kurzen Dienstweg verständigen, um kurzfristig umsetzbare Verbesserungen am Bonner Ratsinformationssystem zu realisieren.

Beide Termine haben mir interessante Einblicke in die Denkstrukturen öffentlicher Verwaltungen ermöglicht. Es lässt sich verallgemeinern: Bei den E-Government-Ansprechpartnern gibt es dankenswerterweise eine große Aufgeschlossenheit für Open Data. Gleichzeitig ist aber auch sichtbar, wie sehr das “Denken in Restriktionen” bei Verwaltungsangestellten verankert ist.

Beim Kölner Termin, mehr aber noch beim Bonner Termin habe ich Wünsche geäußert, welche Daten ich zur Veröffentlichung vorschlage. Gestern in Bonn habe ich umfangreich aus einer kommunalen Open Data Wunschliste vorgelesen, die ich mir gerade zusammenstelle. Als Antwort auf solche Wünsche höre ich oft “Ja, die Daten sind zwar irgendwie da, aber …” – und dann einen oder mehrere der folgenden Gründe, warum es wahrscheinlich sehr schwierig sein könnte, diese Daten zu veröffentlichen:

  • … da muss man erst mal rechtlich prüfen, ob diese Daten veröffentlicht werden können. (Als Sub-Argument hierzu wird am häufigsten das Urheberrecht oder der Datenschutz genannt, aber auch die Tatsache, dass die Daten zweckgebunden erhoben werden und dann nicht ohne weiteres zweckfrei veröffentlicht werden können.)
  • … die gehören dem Tochterunternehmen (z.B. Wasserwerke, Wohnungsbaugesellschaft, Stadtwerke, …)
  • … da arbeitet die Verwaltung selbst nur mit Excel-Tabellen
  • … da hat sich über die Jahre die Erhebungsgrundlage verändert und die Daten sind nicht mehr vergleichbar
  • … da haben wir keine vollständigen Daten zu
  • … die Daten sind so kompliziert, dass da keiner durchblickt.

Ich will gar nicht in Frage stellen, dass insbesondere rechtliche Aspekte ernst zu nehmen sind. Im Einzelfall muss man sich vor der Veröffentlichung jedes einzelnen Angebots damit auseinandersetzen. Andere Punkte sind jedoch bestenfalls Herausforderungen. Und wieder andere sind schlichtweg kein Problem.

  • Wenn Daten, z.B. über die Kindergärten, Kindergartenplätze und Anzahl der Kiga-MitarbeiterInnen in einer Stadt bei der Stadtverwaltung nicht vollständig vorliegen, weil es z.B. auch kirchliche Träger gibt, dann ist das eben so. Aber lieber bekomme ich die unvollständigen Daten der Stadt als gar keine. Bestenfalls werden die Kirchen durch die Veröffentlichung der Stadt selbst motiviert, ihre Daten offen zu legen.
  • Tochterunternehmen der Städte/Gemeinden/Kommunen sind selbstverständlich in den Open-Data-Prozess mit einzubeziehen. Die Kommunalpolitik muss darauf hinwirken, dass diese Unternehmen vertraglich zur Freigabe bestimmter Daten verpflichtet wird. Wenn die Stadtwerke, die für die Trinkwasserqualität verantwortlich sind, ein Privatunternehmen geworden sind, darf dies nicht als Grund dafür herhalten, dass man die Messdaten zum Trinkwasser nicht veröffentlicht.
  • Wenn in der Verwaltung selbst nur Excel-Tabellen vorliegen, ist das auch kein Beinbruch. Denn Excel-Tabellen und CSV-Exporte daraus zu veröffentlichen ist besser, als keine Daten zu veröffentlichen. Und prinzipiell weit besser, als z.B. PDF-Dokumente.
  • Hat sich eine Datengrundlage über die Zeit verändert, zum Beispiel bei Kommunalwahlen aufgrund der immer wieder neuen Festlegung der Wahlbezirke, ist das ganz und gar kein Grund, die Daten nicht zu veröffentlichen. Ebensowenig die gefühlte Komplexität, beispielsweise beim Thema Haushalt. Die Interpretation der Daten obliegt den Nutzerinnen und Nutzern. Man kann diesen durch ausführliche Dokumentation dabei behilflich sein, diese Daten zu verstehen. Sie ihnen vorzuenthalten, weil damit Schwierigkeiten auf Seiten der Nutzer verbunden sein könnten, ist jedoch keine Lösung.

Machen wir uns nichts vor, für die kommunale Verwaltung ist ein Bekenntnis zu Open Data ein gewaltiger Paradigmenwechsel. Umso erfreulicher ist es für mich, dass die Bereitschaft dazu hier bei mir vor der Haustür deutlich erkennbar ist und dass ich den Wechsel miterleben und -gestalten kann.

Gepflegte Stichworte

Die Volltexte des Ratsinformationssystems mit einer Suchmaschine zu verarbeiten, ergibt eine angenehme Nebenwirkung: Man hat ziemlich schnellen Zugriff auf eine Liste aller Begriffe, die im Inhalt vorkommen. Und man weiß, wie häufig sie vorkommen.

Damit kann man dann hübsche Wordle-Grafiken bauen. Oder, eher nützlich, man bietet die Stichwörter als Such-Filter an, so wie es in der Suche von Offenes Köln der Fall ist.

Dort können Nutzer einfach ein Stichwort anklicken und so die Suche auf alle Dokumente einschränken, die dieses Stichwort enthalten.

Es ergeben sich aber darüber hinaus auch interessante Auswertungsmöglichkeiten der Inhalte. Man kann anhand der Stichworte zum Beispiel Trends nachvollziehen. Lässt man sich zum Beispiel die Dokumente mit dem Begriff bürgerbegehren ausgeben und zählt dann, in welchen Zeiträumen der Begriff wie häufig vorgefunden wird, könnte das grafisch anzeigen, wann sich die Kölner Politik mit dem Thema beschäftigt hat.

Oder man könnte vergleichen, was die Inhalte der Bezirksvertretung (BV) Chorweiler von denen der BV Rodenkirchen unterscheidet. Das ginge zum Beispiel, indem man die 1000 häufigsten Begriffe aus den Dokumenten, die in den beiden BVs behandelt werden, vergleicht und die herausfiltert, die deutlich unterschiedliche Häufigkeiten aufweisen.

Allerdings ist da noch ein wenig Arbeit zu tun, und zwar redaktionelle Arbeit. Um diese genauer erklären zu können, muss man jedoch zunächst erklären, wie die Stichworte gebildet werden. Das passiert folgendermaßen:

  1. Der Text eines Dokuments (das sind die Volltexte aller Dateianhänge) werden in einzelne Begriffe zerlegt.
  2. Die Begriffe werden in Kleinbuchstaben umgewandelt.
  3. Jeder Begriff wird mit einer Stoppwortliste abgeglichen. Falls der Begriff in der Stoppwortliste auftaucht, wird er verworfen, sonst wird er beibehalten.
  4. Jeder verbleibende Begriff wird mit einer Synonym-Tabelle abgeglichen und ggf. in eine andere Form gebracht.

Nehmen wir an, der Text des Dokuments, mit dem wir es zu tun haben, lautet

Die Kinder des Viertels wünschen sich mehr Spielmöglichkeiten.

Nach Schritt 3 bleibt davon noch kinder und spielmöglichkeiten. Alle anderen Wörter (die, des, viertels, wünschen, sich, mehr) sind der Stoppwortliche zum Opfer gefallen.

Schritt 4 sorgt ggf. dafür, dass z.B. aus den Wörtern “kindern”, “kind”, “kindes” das Wort “kinder” wird, wie es in der Stichwortliste dann Sinn ergibt. Denn das Stichwort soll aussagen, das unter anderem “kinder” Thema des Dokuments sind. Ebenso kann hier dafür gesorgt werden, dass aus einem Wort wie spielmöglichkeiten das gebräuchlichere Wort spielplätze gemacht wird.

Wer sich die Wordle-Grafik oben ansieht, kann sehen, dass die Stoppwortliste noch deutlich ausbaufähig ist. Denn es sind noch immer viele Adjektive und Verben (beträgt, möge, aktuell) darunter oder Substantive, die so allgemein sind, dass sie für sich genommen nichts aussagen (planung, erläuterungen, möglichkeit).

Beide Listen, die benötigt werden, um die Stichworte sinnvoll zu reduzieren und zu normalisieren sind im Github Repository zu finden und können dort bearbeitet werden:

Stoppwortliste: stopwords_terms.txt
Synonymtabelle: synonyms_terms.txt

Das Format der Stoppwortliste ist denkbar einfach: Ein Eintrag pro Zeile, weiter nichts. Die Synonymtabelle ist nur wenig komplexer. Der Kommentar oben drüber zeigt, worum es dort geht, und das Format ist praktisch selbsterklärend.

Wer das letzte Video gesehen hat, der weiß: Code bearbeiten auf Github gehört zu den einfachsten Dingen der Welt. Wenn Du also Lust hast, dabei zu helfen, den Nutzen von Offenes Köln zu steigern und tolle Anwendungen zu ermöglichen, dann steig ein und bearbeite diese beiden Textdateien. Oder, wie Github-Fans sagen: Use the fork, Luke!

Mithackgelegenheit: Wie Du ganz schnell und einfach Verbesserungen beisteuern kannst

Wenn Du Dich schon mal gefragt hast, wie das mit der Zusammenarbeit an Open Source Software funktioniert und wie Du dazu beitragen kannst, ist dieser Beitrag für Dich.

Das Video zeigt Dir, wie Du einfache Verbesserungen zu Offenes Köln beisteuern kannst. Zum Beispiel indem Du ein Synonym für die Suche vorschlägst. Dank Github kannst Du das direkt im Webbrowser machen und es ist so leicht, dass es wirklich jeder kann.

Link zum Video

Ist das einfach genug? Probier es aus! Hier ist die Seite Aufgaben für Nichtentwickler mit vielen Möglichkeiten, mitzumischen.

Change Log zum Release

Das neue Release ist da. Nachfolgend habt Ihr eine Übersicht der Änderungen.

API

  • Zahlreiche API-Änderungen. Da nichts so geblieben ist, wie es war, ist die API-Dokumentation der Anlaufpunkt für weitere Infos.

Startseite

  • Feature: Die Positionsangabe kann nun beliebig oft geändert werden.
  • Die Positionseingabe besteht nun nur noch aus einem Eingabefeld.
  • Die Standort-Abfrage des Browsers wurde wegen teilweise unbrauchbaren Ergebnissen deaktiviert.
  • Feature: Nach der Eingabe eines Straßennamens, zu dem mehrere Orte gefunden werden, werden die Orte auf der Karte markiert.
  • Bei der Positionseingabe auf der Startseite kann die Eingabe nun mit Betätigung der Enter-Taste abgesendet werden.
  • Während der Suche nach Dokumenten wird nun eine Aktivitätsanzeige eingeblendet.
  • Ein Problem wurde behoben, bei dem nach Eingabe eines Straßennamen mehrere eigentlich identische Auswahlmöglichkeiten angeboten wurden.
  • Der Fall, dass ein Nutzer einen Straßennamen angibt, zu dem keine Straße gefunden werden kann, wurde bislang nicht richtig behandelt. Nun erscheint eine Fehlermeldung.
  • Die Karte wird nun nicht mehr über das Scroll-Rad bzw. das Touchpad gezoomt, da dies das Scrollen über die Seite unmöglich gemacht hat. Hineinzoomen geht nun am einfachsten mit Doppelklick. Alternativ kann man die Plus/Minus Buttons nutzen.

Suche

  • Die Berechnung der Relevanz von Treffern im Suchergebnis hat sich geändert. Dies beeinflusst die Reihenfolge der Treffer bei der Sortierung nach Relevanz. Begriffe, die im Titel eines Dokuments vorkommen, wirken sich nun stärker auf die Relevanz aus als bisher. Mehr gibt es dazu auf einer Wiki-Seite.

Dokumenten-Detailseite

  • Wenn mehrere Dokumente sich eine Kennung teilen, wird dies nun auf der Detailseite berücksichtigt und alle Inhalte werden ausgegeben.
  • Die Meta-Angaben zu einem Dokument am Kopf der Seite sind detaillierter und sollten durch die tabellarische Anordnung einfacher lesbar sein. Der Link zum Original-Dokument im RIS ist nun auch schon oben auf der Seite zu finden.
  • Der Volltext von Textdokumenten kann direkt auf der Seite eingeblendet und gelesen werden.
  • Der Link zum Herunterladen eines Dateianhangs ist nun deutlicher sichtbar und klickbar
  • Für die Anzeige von PDF Dokumenten gibt es eine Vorschaufunktion mittels Google Docs, für die man keinen PDF-Reader benötigt. Der Link dazu befindet sich jeweils neben dem Öffnen-Button.
  • Bei Klick auf ein Vorschaubild werden die Vorschaubilder dieses Anhangs “gezoomt”.
  • Informationen zu depublizierten (entfernten) Dateianhängen werden ausführlich angezeigt.
  • Vorschaubilder sollten nun schneller geladen werden, da sie von mehreren verschiedenen (virtuellen) Servern abgerufen werden.

Euer Feedback ist wie immer hochwillkommen!

Einigung zur Abmahnung von Euro-Cities

Zu der vor einer guten Woche eingegangenen Abmahnung wegen Urheberrechtsverletzung gibt es eine Einigung.

Es bleibt dabei, dass das besagte Kartendokument auf offeneskoeln.de nicht mehr veröffentlicht wird. Die Alternative wäre gewesen, mich auf einen Rechtsstreit einzulassen und damit, nach allem was ich in den letzten Tagen gelernt habe, auf sehr dünnes Eis zu begeben.

Die Firma Euro-Cities AG bietet an, auf die Schadenersatzforderung sowie die Erstattung der Dokumentations- und Anwaltskosten in Höhe von insgesamt 828 EUR sowie auf die Forderung nach Abgabe einer strafbewehrten Unterlassungserklärung zu verzichten.

Im Gegenzug erwartet man von mir eine Zuwendung in einer Höhe zwischen 100 und 200 EUR an ein Kölner Hospiz meiner Wahl und die Veröffentlichung dieser Darstellung zu der Einigung, die die Firma Euro-Cities vor Veröffentlichung erhalten hat.

Wie kommt es zu dieser Einigung?

Für Herrn Biermann, Vorstand der Euro-Cities AG, spielte es offensichtlich eine große Rolle, wer die ursprüngliche Urheberrechtsverletzung begangen hat. Ich habe Herrn Biermann die Funktionsweise von Offenes Köln erläutert und dargelegt, dass das besagte Kartendokument automatisch vom Server des Ratsinformationssystems auf offeneskoeln.de kopiert wurde. Vertreter der Stadt Köln haben gegenüber Herrn Biermann bestätigt, dass das Dokument im Ratsinformationssystem öffentlich zugänglich war. Damit sieht Herr Biermann die Hauptschuld bei der Stadt Köln.

Warum lasse ich mich darauf ein?

Mir kommt das Einigungsangebot aus mehreren Gründen entgegen. Naheliegend ist der, dass die mir entstehenden Kosten so deutlich unter der ursprünglichen Forderung liegen.

Wichtiger ist mir aber, dass ich keine strafbewehrte Unterlassungserklärung abgeben muss. Denn auch, wenn ich große Sorgfalt walten lassen werde, wenn es um die Veröffentlichung von Dokumenten geht, kann ich doch kaum mit Sicherheit ausschließen, dass sich noch einmal irgendwo eine urheberrechtlich geschützte Karte in den Dokumenten des Ratsinformationssystems befindet.

Nun habe ich die Hoffnung, dass ich mich wieder stärker mit den Inhalten und Funktionen von Offenes Köln beschäftigen kann, als es in der vergangenen Woche der Fall war.

Danke

Ich habe in den letzten Tagen sehr viel Unterstützung erhalten, für die ich mich an dieser Stelle gerne bedanken möchte. Ich verstehe diese Unterstützung auch als Signal, dass Offenes Köln seinen Platz hat. Danke!

Die Spende in Höhe von 150 EUR hat der Förderverein Hospiz für palliative Therapie e.V., Köln erhalten.