Die Kölner Lokalpolitik via Google

Was Google nicht findet, das gibt es auch nicht. Oder?

Diejenigen, die sich schon näher mit Offenes Köln beschäftigt haben, wissen es: Hier liegen Kopien aller* öffentlichen Dokumente aus dem Kölner Ratsinformationssystem, unter einer festen URL, über die jedes Dokument direkt verlinkt und abgerufen werden kann.

* Alle Dokumente? Nein, nicht alle. Aktuell sind 96 von 63.887 Dokumenten entfernt, größtenteils wegen des Risikos einer Abmahnung wegen Urheberrechtsverletzung. Siehe dazu der Blogbeitrag Abmahnung und Selbstzensur.

Damit besteht ein entscheidener Unterschied zum Ratsinformationssystem (RIS) der Stadt Köln: dort können die eigentlichen Dokumente, also die Vorlagen und Anlagen (meist PDFs) nicht per URL verlinkt werden. Und Suchmaschinen haben darauf auch keinen Zugriff.

Wer sich also per Google auf die allgemeine Recherche nach bestimmten Themen aus der Lokalpolitik macht, kann dabei auch auf offeneskoeln.de landen. Manch einer erfährt so erstmals, dass zum Beispiel die Satzung seines eigenen Vereins auf einer öffentlichen Plattform hinterlegt wurde, weil der Verein sich als förderberechtigter Träger der Jugendarbeit beworben hat und dies in einer Ausschuss-Sitzung behandelt wurde. Ein Stück zeitgemäße Transparenz in der lokalen Politik. Eine weitere Auswirkung ist zum Beispiel, dass Mitarbeiter der Stadtverwaltung beim Googeln nach ihrem eigenen Namen unerwartet ein Dokument auf offeneskoeln.de finden, das im RIS der Stadt irrtümlicherweise veröffentlicht wurde. Woraufhin sich die Stadt Köln bei uns gemeldet hat und das Dokumente entfernt wurde. Ohne Zugriff auf die Dokumente durch Google wäre dies wohl nicht bemerkt worden. Genau so wie es wohl auch die Firma Eurocities nur mit Hilfe von Google bemerkt haben dürfte, dass ein Dokument mit einem Stadtplan-Ausschnitt, an dem Eurocities die Urheberrechte hält, im Ratsinformationssystem veröffentlicht wurde. Denn Der Name der Firma stand als Text im Urheberrechtsvermerk in dem PDF-Dokument. Transparenz hat offensichtlich mehrere Seiten.

Wenn wir Transparenz danach bewerten, wie gut bestimmte Inhalte per Google auffindbar sind, sollten wir einen genaueren Blick darauf werden. Denn in der Realität können wir als Site-Betreiber nur einige Dinge tun, damit Google unsere Dokumente indizieren (d.h. in den Suchindex aufnehmen) kann. Ob dies auch tatsächlich geschieht, ist eine andere Frage.

Seit kurzem liefern die Webmaster-Tools von Google einen neuen Bericht über die Anzahl der Dokumente, die tatsächlich in den Index aufgenommen wurden.

Das Diagramm zeigt uns, von oben nach unten:

(rot) die Anzahl der jemals gecrawlten Seiten bzw. URLs
(blau) die Zahl der in den Index aufgenommenen URLs
(grün) die Zahl der aus diversen Gründen nicht in den Index aufgenommenen URLs
(gelb) Zahl der URLs, die wegen robots.txt Einschränkungen nicht indexiert werden dürfen

Man sieht, dass grob etwa ein Drittel weniger URLs in den Index aufgenommen wurden, als insgesamt in Frage kamen. Wie lässt sich das erklären?

Grundsätzlich nicht in den Index kommen URLs, die wegen unserer eigenen robots.txt Datei ausgeschlossen werden (im Graphen gelb). Wir möchten nämlich nicht, dass Google in unserer eigenen Suche herumstöbert oder API-Anfragen ausführt. Das würde zu unnötigem Verkehr auf unserem Server führen, wo es doch viel einfachere Wege gibt, an alle Dokumente zu kommen. Wie man sieht, macht dieser Teil aber ohnehin nur 31 URLs aus.

Der weitaus größere Teil von 25.107 URLs, die nicht in den Index aufgenommen wurden (im Graphen grün eingezeichnet), ist etwas komplizierter zu erklären. Google bietet hierzu eine allgemeine Erklärungs-Seite an. In diesem Text erfahren wir, dass das unter anderem bedeuten kann, dass Google die URL “als Duplikat, nicht kanonisch oder weniger nützlich erkannt” hat. Ja, Duplikate gibt es durchaus in den Dokumenten, manche Dateien sind sogar exakt identisch (siehe auch: Von Datei-Duplikaten zu Beziehungen zwischen Dokumenten). Google dürfte aber auch klug genug sein, Dateien als identisch zu erkennen, wenn nur der Inhalt identisch ist, aber die Datei minimale und unwesentliche Unterschiede aufweist.

Der Begriff “nicht kanonisch” bedeutet im Prinzip nichts anderes, nämlich dass unter verschiedenen URLs der selbe Inhalte zu finden ist. Und von diesen Fällen haben wir eine ganze Menge. Denn unsere Dokumenten-Detailseiten, z.B. 0637/2012 und 0635/2012 sehen für Menschen zwar recht unterschiedlich aus, für Google aber vermutlich nicht. Denn die Inhalte darin werden per JavaScript geladen. So weit ist Google offensichtlich noch nicht. Das ist aus unserer Sicht aber in Ordnung, denn die eigentlichen Inhalte stecken ohnehin in den Dateien, die Google auf direkterem Wege indizieren kann.

Überschlagen wir mal die Zahlen unserer Dokumenten-Detailseiten und der Dateianhänge:

  • Dokumenten-Detailseiten: 22.739
  • Dateianhänge: 64.439
  • Summe: 22.739 + 64.439 = 87.178

Tatsächlich hat also Google noch ca. 4.000 URLs weniger gecrawlt, als tatsächlich vorhanden sind. Das ist nicht weiter verwunderlich, denn Google ist nicht verpflichtet, eine umfangreiche Site komplett zu crawlen. Über die Kriterien, die Google dazu bringen, URLs zu indizieren oder nicht, diskutieren Suchmaschinenoptimierer kontrovers, aber letztlich bleibt es Googles Geheimnis.

Die über 25.000 gecrawlten, aber nicht in den Index aufgenommenen URLs dürften zum großen Teil über die Dokumenten-Detailseiten zu erklären sein, die für Google allesamt wie Duplikate ohne jeglichen indexierbaren Inhalt aussehen. Aber hier bleiben eben noch ca. 3.600 URLs übrig, für die es keine detaillierte Erklärung gibt. Eine genaue Aufstellung über jede einzelne URL liefern die Webmaster-Tools nämlich leider nicht. Wir müssen mit der Annahme leben, dass dies tatsächlich inhaltlich identische Dokumente, leere Dokumente (ja, auch das gibt es) oder sonstwie geartete unnütze Dateien sind.

Viele mit einer Suchmaschine durchsuchbare Dokumente vermitteln schnell den Eindruck von Zugänglichkeit und Transparenz. Dieser Artikel soll zeigen, dass tatsächlich Skepsis immer angebracht ist, wenn wir Transparenz an den Fähigkeiten eines rein technischen Zugriffs bemessen. So können die Suchmaschinen, ob unsere eigene oder die von Google, auch keine Wunder vollbringen. Wenn beispielsweise in einem Dokument einfach nicht die Wörter benutzt werden, die mir als Suchender zu einem Thema einfallen (z.B. Zebrastreifen vs. FGÜ), dann hilft mir das nicht weiter. Und letztlich gibt es ja auch Dokumente, die aus verschiedensten Gründen gar nicht erst veröffentlicht werden. Wie viele es sind, wissen wir bislang nicht.

Diskussion