Watchdog installieren und konfigurieren
So schützen Sie Ihren Server mit einem Watchdog-Timer vor Hängen und Abstürzen.
Watchdog-Timer ist ein hardwaregestützter Schutzmechanismus, der verhindert, dass Ihr Server dauerhaft hängt. Das Prinzip ist simpel: Das System sendet regelmäßig ein „Heartbeat"-Signal, um den Timer zurückzusetzen. Bleibt dieses Signal aus — weil das System eingefroren ist, abgestürzt ist oder in einer Endlosschleife steckt — löst der Timer einen Neustart aus. Je nach Konfiguration kann das ein sauberer Neustart auf Software-Ebene oder ein Hard Reset auf Hardware-Ebene sein (z. B. durch Anlegen des RST-Signals).
Auf dedizierten Servern und VPS, bei denen kein physischer Zugriff auf die Maschine möglich ist, ist diese Art der automatischen Wiederherstellung äußerst wertvoll.
Installation unter Ubuntu / Debian
sudo apt-get install watchdog
Das Paket installiert folgende wichtige Dateien:
/etc/init.d/watchdog— Init-Skript des Dienstes/etc/watchdog.conf— Hauptkonfigurationsdatei/etc/default/watchdog— Startoptionen/dev/watchdog— das Watchdog-Gerät/usr/sbin/watchdog— die Watchdog-Binärdatei
Wichtige Parameter in /etc/watchdog.conf
Timing und Logging:
interval— wie oft der Watchdog auf das Gerät schreibt. Standard: 10 Sekunden. Werte über 60 Sekunden erfordern beim Start das Flag-f.logtick— steuert, wie häufig Ereignisse ins Log geschrieben werden. Beilogtick = 60undinterval = 10werden Ereignisse höchstens alle 10 Minuten protokolliert.
Systemlast:
max-load-1,max-load-5,max-load-15— maximal zulässige Systemlast-Durchschnittswerte über 1, 5 und 15 Minuten. Wird ein Schwellenwert überschritten, löst der Watchdog einen Neustart aus. Auf0setzen, um eine Prüfung zu deaktivieren.
Arbeitsspeicher und Temperatur:
min-memory— minimal verfügbarer virtueller Arbeitsspeicher. Auf0setzen, um die Prüfung zu deaktivieren.max-temperature— maximal zulässige Temperatur, bevor ein Neustart ausgelöst wird.watchdog-device— Pfad zum Watchdog-Gerät (in der Regel/dev/watchdog).temperature-device— Pfad zum Temperatursensor-Gerät.
Datei- und Prozess-Monitoring:
fileundchange— überwacht eine Datei auf Änderungen.changelegt das Prüfintervall fest.pidfile— Pfad zur PID-Datei eines Prozesses, der am Laufen gehalten werden soll. Beispiel:pidfile = /var/run/apache2.pid. Läuft der Prozess nicht, startet der Watchdog das System neu.
Netzwerk:
pingundinterface— prüft die Netzwerkkonnektivität durch Anpingen eines Hosts.interfacegibt an, welches Netzwerkinterface verwendet werden soll.
Benutzerdefinierte Tests:
test-binary— Pfad zu einem eigenen Testskript oder -programm.test-timeout— maximale Ausführungszeit des Tests in Sekunden (0für kein Limit).repair-binary— ein Programm, das automatisch ausgeführt wird, wenn ein Problem erkannt wird, bevor ein Neustart erfolgt.
Benachrichtigungen und Priorität:
admin— E-Mail-Adresse für Ereignisbenachrichtigungen. Leer lassen, um sie zu deaktivieren.realtime = Yes— hält das Watchdog-Modul im Arbeitsspeicher, damit es nicht ausgelagert werden kann.priority— Echtzeit-Scheduling-Priorität des Watchdog-Prozesses.
Unsere Produkte und Dienste
Beispielkonfiguration mit Intel TCO Watchdog
Kernel-Modul laden:
sudo modprobe iTCO_wdt
In /etc/watchdog.conf auskommentieren oder hinzufügen:
watchdog-device = /dev/watchdog
interval = 10
In /etc/default/watchdog den Modulnamen angeben:
watchdog_module="iTCO_wdt"
Für ausführliches Logging in syslog zum Debuggen:
watchdog_options="-v"
Dienst neu starten:
sudo /etc/init.d/watchdog restart
Logs in Echtzeit beobachten, um den korrekten Betrieb zu prüfen:
tail -f /var/log/syslog
Hilfe
Bei Fragen oder wenn Sie Unterstützung brauchen, erreichen Sie uns jederzeit über das Ticketsystem — wir helfen Ihnen gern weiter!