|
|
|
|
|
|
|
E-Toys |
|
|
|
|
|
|
|
EMail an Thilo Brai |
|
|
|
|
|
|
|
|
|
|
|
Log-Spitzel 0.9.4 |
|
|
Download circa 110 kB |
|
> Die
Logdateien Log-Spitzel ist ein Programm zur Logdateien-Auswertung von Web-Servern. Log-Spitzel liest CLF-Logdateien ein und zeigt sie in Tabellenform an. Die Besonderheit ist, dass die einzelnen Sessions der Besucher farblich markiert werden und man sich so leichter ein Bild über die Bewegungen auf dem Server machen kann. Zur deutlicheren Anzeige können, ähnlich einer Datenbank, Ein-/Ausschlusskriterien angewendet werden. |
|
|
|
|
|
||
|
|
Die LogdateienLog-Spitzel liest Dateien im NCSA-Common-Logfile-Format (CLF). Die dekomprimierten Dateien sehen etwa so aus
(gekürzt): Es können mehrere Log-Dateien auf einmal per Drag&Drop bei Log-Spitzel abgeliefert werden. Die Dateien werden dann den Dateinamen entsprechend sortiert und in dieser Reihenfolge eingelesen und – falls sie eine gz-Endung haben – dekomprimiert. Die Spalten der Log-Dateien können über die Datei LogSpitzel.ini angepasst werden. Die Ini-Datei muss im gleichen Verzeichnis wie LogSpitzel.exe liegen und wird dann automatisch beim Programmstart eingelesen. Es ist eine Textdatei mit etwa folgendem Aufbau (Ausschnitt):
In der ersten Spalte stehen die Namen der Felder, die im Tabellenkopf der Programmtabelle benutzt werden. Wichtig ist, dass, wenn im Namen Zahlen verwendet werden, sie nicht durch ein Leer-/Tabzeichen abgesetzt sein dürfen, sonst wird die Zahl als Spaltenbreite eingelesen. In der zweiten Spalte stehen die Spaltenbreiten der Tabellenzellen. In der dritten Spalte stehen die Namen der Spalten, wie sie in den internen Programmfunktionen und den Ein-/Ausschließen-Filtern benutzt werden. Für die internen Funktionen des Programms sind die Spalten ip und date besonders wichtig. Die obige Ini-Datei verwendet das bei 1&1 gebräuchliche Format. Es unterscheidet sich von denen anderer Serverbetreibern dadurch, dass vor der referrer-Spalte eine Spalte domain eingefügt ist. Bevor man den Log-Spitzel einsetzt, sollte man sich eine angepasste Ini-Datei erstellen, sonst können die Filter nicht vernünftig eingesetzt werden. Tipp: Wer mit unterschiedlichen
Logdateien arbeitet,
kann sich
verschiedene Ini-Dateien erstellen, die nur den Abschnitt Die FilterMit das Erste, was man ausfiltern will, sind
wahrscheinlich die Bot-Zugriffe. Um sich einen Überblick zu
verschaffen, welche Bots aktiv waren, kann man im Einschließen-Textfeld
folgendes eingeben Die Asterix-Zeichen in Wollte man nach
allen HTTP/1.0-Abfragen suchen, würde man also
eingeben Vorsicht mit Filtern wie Um sich alle Aktivitäten eines bestimmten Tages
anzusehen, kann man entweder im Einschließen-Textfeld
eingeben Mit Hinweis: Die
Einschließen-Filterregeln können aus dem
Kontextmenüs der Tabellenfelder geholt werden: Wenn man eine Filterzeile nur kurzzeitig außer Kraft setzen will, kann man der Zeile einfach ein Semikolon voranstellen. Hinweis: Die Ein- und
Ausschlussfilterregeln
können in Ini-Dateien in der
Die SessionsDie Sessions werden in der Tabelle farbig hinterlegt dargestellt. Eine Session wird definiert durch eine IP-Nummer und eine Zeitdauer. Kommen von einer IP innerhalb einer bestimmten Zeit keine Anforderungen mehr, gilt die Session als beendet. Interessiert man sich für die Session-Bedingungen einer bestimmten Datei, trägt man den entsprechenden Einschließenfilter ein und aktiviert zusätzlich das Kontrollkästchen ganze Session. Die Sessionauszeit (1–120) kann in
der
Die IP-AuflösungNach dem Aktivieren des Kontrollkästchen IP-Adressen auflösen werden alle benötigten IPs kontrolliert und, falls das nicht schon früher geschehen ist, der Hostname aufgelöst. Das kann je nach Anzahl der aufzulösenden Adressen etwas dauern, wobei leider die Nummern, die gar nicht aufgelöst werden können, die meiste Zeit beanspruchen. Natürlich ist für diese Funktion ein Internetzugang erforderlich. Während der Abfrage wird ein kleiner Dialog mit einem Abbrechen-Schalter eingeblendet. Der Schalter ist meist etwas zickig, reagiert aber zuverlässig, wenn man in klickt und die Maustaste gedrückt hält, bis die Nachricht zu ihm durchgedrungen ist. Nachdem die Hostnamen verfügbar sind, erscheint, wenn der Hostname eine Länder-Top-Level-Domäne (ccTLD) hat, in der IP-Spalte der Hostname samt passender Nationalitätenflagge. Für Domänen wie com, net, info ... gibt es in der LogSpitzel.ini-Datei den Absatz AutomatischeLänderCodes, in dem die TLD Nationalitäten zugeordnet werden können. Beispiel:
Der Absatz kann manuell erweitert werden, wenn man Informationen zu Domänen oder IP-Blöcken hat, die eine Nationalitätenzuordnung ermöglichen. Die automatisch ermittelten Hostnamen werden beim Beenden des Programms zusammen mit der IP in der Datei LogSpitzel.ip gespeichert. Wenn man über z. B. WhoIs-Dienste oder GeoIP selbst Domänen ermittelt hat, kann man sie ebenfalls in die Datei eintragen. Man sollte nur sicherstellen, dass Log-Spitzel gerade nicht läuft, weil er sonst beim Beenden, die händisch gemachten Einträge wieder überschreiben könnte. Der Aufbau der LogSpitzel.ip-Datei ist sehr einfach. Zuerst kommt die IP-Adresse, dann eine Zahl (kodiertes Datum), dann eine Tilde oder eine TLD (de, at, eu, us ...) und zum Schluss der Zeile der Hostname oder eine IP (wenn der Hostname nicht ermittelt werden konnte; die IPs werden gespeichert, weil gerade sie bei der nächsten Abfrage wieder die meiste Zeit in Anspruch nehmen würden). Mehrere beieinanderliegende IP-Adressen können zu einem IP-Block zusammengefasst werden. Als Hostname formuliert man dann einen Hostnamen mit Platzhalterzeichen. Platzhalterzeichen sind auch für die vielen dynamischen Hostnamen sinnvoll, wie z. B. von der Telekom (*.t-ipconnect.de, *.t-dialin.net) von Alice (*.alicedsl.de) oder 1&1 (*.einsundeins.de). Hat man erst mal einen Hostnamen mit Platzhalterzeichen definiert, erben alle nachfolgenden passenden Hostnamen den Platzhalternamen. Das heißt, dass beim nächsten Einlesen der Datei LogSpitzel.ip die neuen Namen benutzt werden. Ergeben sich auf diese Art IP-Blöcke, werden sie beim nächsten automatischen Speichern als Blöcke geschrieben. |
|
|
|
|
|
||
|
|
Man hat bei den Platzhaltername gewisse
Spielräume, wie im obigen Beispiel bei der
1&1-Adresse. Lässt man das Wem die Datei LogSpitzel.ip mit der Zeit zu groß wird, kann sie z. B. in einer Textverarbeitung in eine Tabelle umwandeln, nach der Zeit (2. Spalte) sortieren, und die ältesten Zeilen (kleinsten Zahlen) raus schmeißen. Aber bitte, Sicherheitskopie anlegen, falls beim Bearbeiten etwas schief läuft. Die FlaggenDie Nationalitätenflaggen kommen aus der Datei Flaggen.bmp. Zusammen mit der Datei Flaggen.txt werden die TLDs der Hostnamen oder die händisch in LogSpitzel.ip eingetragenen ccTLDs in einen XY-Offset in die Bitmap-Datei umgerechnet. Wer will, kann eigene Flaggen eintragen/anhängen. Dazu malt man zuerst in der Flaggen.bmp-Datei eine neue Flagge und trägt dann in der Datei Flaggen.txt die entsprechende TLD ein. Die TLD muss mit einem Kleinbuchstaben beginnen und kann dann einen weiteren Kleinbuchstaben oder eine Zahl haben. Für eigene Kreationen empfehlen sich Kombinationen wie a0, a1, ... z8, z9, weil, wenn sich morgen oder übermorgen Bayern doch noch abspaltet, müsste wahrscheinlich Weißrussland sein by abgeben und sich eine andere Länderkennung suchen, die dann womöglich mit einer erfundenen kollidiert. Ach ja, die Flagge für aq Antarktis ist natürlich auch erfunden. Ansonsten noch ein Dankeschön an markfennell.com der mir mit seinen Flaggen einig Arbeit erspart hat. Das KontextmenüKlickt man mit der rechten Maustaste auf ein Feld der Tabelle, bekommt dann ein Kontextmenü angezeigt. Damit lassen sich schnell ein paar Optionen für die Einschließen-Filterliste zusammenklicken. Die Zeichenketten für die Vergleichsfunktion müssen aber noch angepasst (mit Platzhalterzeichen versehen werden). Der Punkt Dateien-Graph öffnet ein Fenster in dem die Zugriffe auf verschiedene Dateien über die Zeit angezeigt wird (siehe folgenden Abschnitt Der Dateien-Graph). Wenn man das Kontextmenü auf einem Datei(file)-Feld öffnet, wird automatisch die Statistik für diese Datei vorgewählt. Die Option Sessions zusammenhalten gruppiert die Zugriffe so, dass alle Folgezugriffe einer Session aufgelistet werden, bevor die Zugriffe der nächsten Session beginnen. Die exakte zeitliche Abfolge der Zugriffe unterschiedlicher Sessions kann dadurch aufgehoben werden. Mit dem Menüeintrag Bekannte Domainnamen anzeigen öffnet man eine Liste, mit den bisher aus der Datei Logspitzel.ip bekannten und automatisch ermittelten Hostnamen. Die Liste ist sortiert und zwar vom Wortende nach vorne. So lassen sich schnell alle gleichartigen Hostname entdecken, die man durch einen Hostnamen mit Platzhalterzeichen zusammenfassen könnte. Außerdem findet man so schnell die exotischen bzw. unerwarteten Web-Passanten aus Argentinien, Japan, Norwegen, Tschechien, Thailand, Mexiko, Taiwan, Uruguay, Litauen ... die sich aber meist nur bei Google verklickt haben. Mit dem Punkt Adressblöcke anzeigen kann man sich die bekannten Adresse auflisten lassen. Mit der Auswahlliste kann man unter den verschiedenen CIDR(Classless Inter-Domain Routing)-Blöcken auswählen. CIDR 32 steht für Einzeladressen (32-Bit-Adressen). Der Dateien-GraphÜber das Kontextmenü lässt sich das Fenster Dateien-Graph öffnen. In den Dropdownlisten sind die verfügbaren Dateien entsprechend ihrer Häufigkeit aufgelistet. Mit den beiden Datumsschiebereglern wird das Start- und Enddatum der Graphen eingestellt. Mit dem Auswerten-Schalter startet man die Auswertung und Anzeige. Die tagweise Aufschlüsselungen ist vor allem nützlich, um Ausreißer zu entdecken, die in den summarischen Statistiken von z. B. Webalizer nicht auffallen. So gibt es immer wieder wildgewordene Downloader, die einzelne Dateien innerhalb weniger Sekunden 97 Mal downloaden ... mhh ... ja gut, wie interessant auch immer das sein mag, es ist nicht die Regel... Eine einfache Möglichkeit diese
Mehrfachzugriffe aus der Statistik zu bekommen, ist bei den
Ausschlussfilterregeln im Hauptfenster ein Noch mehr Übersicht erhält man
eventuell, wenn man als Einschließen-Regel
Hinweis: Die Suchzeichenfolgen der
Dropdown-Listen
können geändert werden. Gibt man z. B. Sonstiges• Mit dem ? Web-Schalter kommt man auf diese Seite. • Ini-Dateien können auch nachträglich geladen werden: Einfach den normalen Öffnen...-Schalter klicken und statt einer Log-Datei eine Ini-Datei öffnen oder eine Ini-Datei auf das Programmfenster ziehen. • LogSpitzel ist eher für übersichtliche Datenmengen ausgelegt. Wenn die Wartezeiten bei Zig-MByte-Dateien zu lang werden, sollte man die Möglichkeit ist Auge fassen, die Logdateien in kleinere Teile zu unterteilen. • Bei viel Betrieb auf der Domain, kann es sein, dass die sieben Farben, zum Unterscheiden der Sessions nicht mehr ausreichen. Das ist immer dann der Fall, wenn zur gleichen Zeit mehr als sieben Besucher aktiv sind. Da hilft dann nur noch, die Datensätze über die Kontextmenüfunktion Sessions zusammenhalten zu gruppieren oder die IP-Nummern mit angepassten Filteroptionen zu reduzieren. Man kann auch versuchen im Colors-Abschnitt der Ini-Datei weitere Farben zu definieren, um Übersichtlichkeit herzustellen. Es können maximal 16 Farben definiert werden. Die Summe der einzelnen R-, G- und B-Werte muss über 400 liegen, damit die jeweilige Farbe eine gewisse Grundhelligkeit erreicht. • Hier noch das Beispiel einer Ini-Datei für FTP-Logs:
Die Zeilen einfach kopieren und als FTP.ini speichern. Zum Anwenden ins Log-Spitzel-Fenster ziehen und anschließend die FTP-Logs ins Fenster ziehen. • Für mich selbst war Log-Spitzel sehr neugierbefriedigend, allerdings auch etwas ernüchternd. Wurde doch schnell klar, dass öfter mal mehr Zip-Download-Roboter als humanoide Leserschaft unterwegs ist. Über die Sinnhaftigkeit einiger Web-Automaten, Zip-Archive innerhalb weniger Sekunden fünf Mal und öfter runterzuladen, enthalte ich mich jeden Kommentars ... außer vielleicht: doppelt hält eben besser. • Anregungen, Thanks und Fehlerberichte bitte an Thilo Brai. |
|
|
|
|
|
|
|
|
|
|