Inhaltsverzeichnis
Monitoring – Grundlagen (SNMP, Metrics, Logs, Alerts, Dashboards)
Monitoring überwacht Systeme, Netzwerke und Anwendungen, um Fehler frühzeitig zu erkennen, Performance zu analysieren und Ausfälle zu vermeiden.
Moderne Monitoring-Lösungen bestehen aus:
- Metriken (CPU, RAM, Netzwerk)
- Logs (Syslog, Anwendungslogs)
- Events / Alerts
- Dashboards (Grafana)
- Health-Checks
- Status-Überwachung (Up/Down)
Monitoring ist zentraler Bestandteil jeder IT-Infrastruktur.
1. Was wird überwacht?
Hardware
- CPU-Auslastung
- RAM
- Festplattenplatz
- Temperatur
- Lüfter
- Netzwerkkarten
Netzwerk
- Bandbreite (Ingress/Egress)
- Paketverlust
- Switch-Status
- Port-Status (Up/Down)
- Ping-Latenz
- SNMP-Daten
Dienste
- Webserver (HTTP 200 OK)
- Mailserver (SMTP/IMAP)
- DNS-Server
- Datenbanken (MySQL/MariaDB)
- Container / Docker-Stacks
Sicherheit
- IDS/IPS Alerts
- Login-Versuche
- Firewall-Events
- CrowdSec-Signale
Anwendungen
- Fehler in Logs
- Antwortzeiten
- API-Performance
- Benutzerzugriffe
2. Arten des Monitorings
a) Host-Monitoring
Überwachung eines einzelnen Systems:
- CPU, RAM, Disk, Netzwerk
- Dienste
- Prozesse
Beispiele:
- Node Exporter (Prometheus)
- Netdata
- Zabbix Agent
b) Netzwerk-Monitoring
Überwachung über das Netzwerk:
- SNMP-Abfragen
- ICMP (Ping)
- Port-Checks
Beispiele:
- LibreNMS
- PRTG
- Checkmk
c) Log-Monitoring
Auswertung von Logdateien:
- Syslog
- Docker-Logs
- Suricata eve.json
- Application Logs
Beispiele:
- Loki + Promtail
- Elasticsearch / Logstash / Kibana (ELK)
- Graylog
d) Anwendungs-Monitoring
- HTTP-Checks
- Response Time
- API-Fehler
- Business-Metriken (z. B. Bestellungen)
3. SNMP – Simple Network Management Protocol
SNMP nutzt Netzwerkabfragen, um Geräte zu überwachen.
Ports:
- UDP 161 (Abfragen)
- UDP 162 (Traps/Eventmeldungen)
Man erhält Daten wie:
- Port-Status
- Traffic-Counter
- Temperaturen
- Lüfter
- Geräteinformationen
SNMP Versionen:
- v1/v2c → Community-Strings (weniger sicher)
- v3 → voll verschlüsselt (empfohlen)
Beispiel Abfrage:
snmpwalk -v2c -c public 192.168.1.1
4. Prometheus & Exporter
Prometheus sammelt Metriken, z. B.:
- CPU
- RAM
- Netzwerk
- Containerstatus
- HTTP-Latenzen
Jeder Dienst liefert Daten über einen „Exporter“.
Beispiele:
- Node Exporter (Server)
- Blackbox Exporter (HTTP/TCP Tests)
- SNMP Exporter (Switches)
- MySQL Exporter
Prometheus arbeitet mit einer Pull-Architektur:
Prometheus → fragt Exporter regelmäßig ab
5. Grafana – Dashboards
Grafana ist ein Visualisierungstool für Monitoring-Daten.
Man erstellt damit Dashboards für:
- Serverstatus
- Suricata Alerts
- Docker-Statistiken
- Mailserver-Metriken
- Netzwerkverkehr
- CPU/RAM
ASCII:
Prometheus / Loki / MySQL →
Grafana →
Dashboards
6. Logging – zentrale Logverwaltung
Logs sind essenziell, um Fehler zu finden und sicherheitsrelevante Events zu erkennen.
Quellen:
- Syslog (Switches, Server, Firewalls)
- Docker-Container
- Suricata eve.json
- Auth-Logs (Loginversuche)
- Mailserver-Logs
Moderne Systeme:
- Loki + Promtail (leicht, schnell)
- ELK Stack (Elasticsearch, Logstash, Kibana)
- Graylog
7. Alerts & Benachrichtigungen
Alerting-Systeme informieren dich sofort bei Problemen.
Typische Trigger:
- CPU > 90%
- Datenträger voll
- Server nicht erreichbar
- viele IDS-Alarme
- Mailqueue wächst
- Container abgestürzt
Benachrichtigung über:
- E-Mail
- Teams/Slack
- Matrix/Element
- Grafana Alerting
- SMS (optional)
- Webhooks
8. Health Checks
Healthchecks prüfen Dienste automatisch:
- HTTP-Status 200
- Datenbank erreichbar
- DNS antwortet
- SMTP Check
- Container status
Viele Load Balancer nutzen Healthchecks.
9. Blackbox Monitoring
Der „Blackbox Exporter“ testet externe Dienste:
GET https://example.com → 200 OK? SMTP Port 587 erreichbar? Ping erfolgreich?
Super zur Überwachung:
- Domains
- APIs
- Mailserver
- externe Dienste
10. Beispiel moderner Monitoring-Stack
ASCII:
+------------------------+ | Prometheus | ← Metrics +------------------------+ | Loki + Promtail | ← Logs +------------------------+ | Grafana | ← Dashboards + Alerts +------------------------+ | SNMP Exporter | +------------------------+
Dieser Stack läuft perfekt auch in Docker.
11. Best Practices
- zentrale Loggingstelle einrichten
- SNMPv3 statt v2c verwenden
- Alerts nicht zu empfindlich, aber sinnvoll scharf
- Dashboards für CPU/RAM/Disk/Netz
- IDS/IPS-Events grafisch auswerten
- Healthchecks für alle Dienste
- Monitoring in eigene VLANs trennen
Zusammenfassung
- Monitoring überwacht Systeme, Netzwerke, Sicherheit und Dienste
- SNMP sammelt Netzwerkdaten
- Prometheus sammelt Metriken
- Grafana visualisiert alles
- Logs → via Loki oder ELK
- Alerts warnen vor Problemen
- Healthchecks sichern Verfügbarkeit
- Monitoring ist Schlüssel für stabile IT-Infrastrukturen