Nach langer Zeit war es Zeit, sich auch dem Scraper wieder mal zu widmen. Eben habe ich einige Änderungen committed.
Fast jede Zeile hat sich geändert, da ich den Whitespace von Tabs auf 4 Spaces umgestellt habe. Auch sonst sind einige Änderungen der Python-Style-Konformität geschuldet. Aber es gibt noch mehr:
- Die Lizenz ist nun MIT-Style. Das bedeutet: Der Copyright-Hinweis im Code muss erhalten bleiben.
- Parameterübergabe beim Aufruf des Scrapers: Man kann nun an der Kommandozeile angeben, welche Jahre und Monate gescrapet werden sollen. Default ist der aktuelle Monat.
- Fehlermeldungen werden nach STDERR geschrieben. Das ist praktischer, wenn man den Scraper per cron betreibt.
- Einige URLs sind nun konfigurierbar.
- Ein Fehler in der Funktion get_text_from_pdf() wurde behoben
- Alle Funktionen sind jetzt auf Deutsch kommentiert
Diskussion