Chci vám vyprávět příběh, který mě naučil být opravdu obezřetný – opatrnost není nazbyt – a důvěřovat něčemu, čemu říkáme intuice – i když to znamená věnovat víc času zdánlivě jednoduchému úkolu.
Jeden zákazník mě přizval k servisnímu zásahu na serveru, který nebyl mnou spravován a s nímž jsem neměl žádný dlouhodobý „pracovní vztah“. Šel jsem do toho víceméně naslepo, s omezenými informacemi o historii systému a jeho skutečném stavu. Zadání znělo jednoduše a přímočaře – provést servisní zásah na aplikacích a následně restart systému. Na první pohled rutinní záležitost, jakou jsem už dělal mnohokrát.
Než jsem se vůbec dostal k samotnému restartu, začal jsem si „osahávat“ skutečný stav systému. Procházel jsem běžící služby, kontroloval logy aplikací, sledoval výkonnostní metriky a zkoušel pochopit, proč se některé věci chovají nestandardně a co přesně od toho restartu všichni očekávají. Není zvykem Linux restartovat jen tak. Ta opatrnost mě stále více nutila jít pomalu, metodicky, nespoléhat se na předpoklady.
Krok za krokem jsem opravoval konfigurace, ladil parametry, které byly evidentně špatně nastavené, a odstraňoval drobné chyby, aby aplikace měly po restartu co nejlepší šanci naběhnout bez problémů. Předpokládal jsem – možná naivně – že server je v pořádku a pravidelně spravován, takže jsem tyto úpravy bral jako standardní přípravu na plánovaný zásah. Přece jen, řekl jsem si, nemůže být až tak špatně.
Čím víc jsem ale aplikace a jejich chování zkoumal, čím hlouběji jsem se ponořoval do logů a systémových hlášek, tím víc jsem cítil rostoucí neklid. Něco úplně „nesedlo“. Byly to jen detaily – drobnosti v chybových hláškách, podivné timeouty, neobvyklé vzorce v logách – ale zkušenost mě naučila, že právě tyto nenápadné signály často znamenají vážnější problémy pod povrchem.
Intuice a opatrnost, tichá opatrná víla
A právě v tu chvíli se ozvala intuice. Ten tichý, ale naléhavý hlas, který nelze racionálně vysvětlit, ale který přichází s lety praxe. Řekla mi jasně a jednoznačně, že bych se měl podívat hlouběji, nejen na úroveň aplikací a operačního systému, ale i na samotný hardware a diskovou infrastrukturu. Bylo by snadné tento pocit ignorovat, pokračovat podle plánu, ale něco mě nutilo být opatrný.
Poslechl jsem ji. Spustil jsem svůj krátký diagnostický skript, který mi poskytuje rychlý přehled o stavu hardwaru a diskového subsystému. A co jsem v seznamu zařízení zjistil, mě doslova šokovalo. Server běžel na RAID 1 poli, které zrcadlilo nejen uživatelská data, ale i kritický systémový disk – a to RAID pole bylo v rozpadlém stavu. Jeden z disků selhal a nikdo to neřešil, možná o tom ani nikdo nevěděl.
Uvědomil jsem si okamžitě, co to znamená. Restart v tomto katastrofálním stavu by s velkou, téměř jistou pravděpodobností vedl k tomu, že se systém po vypnutí vůbec nespustí. Proč? Protože právě operační systém ležel na tom poškozeném RAID 1 poli. Bez fungující redundance by další chyba nebo problém při startu znamenaly totální výpadek. Tahle „zastávka“ na úrovni hardwaru, motivovaná pouhou intuicí a zdravou opatrností, mi zachránila celý den – možná dny – práce s obnovou systému. A zákazníkovi? Tomu potenciálně ušetřila obrovskou škodu, ztrátu dat a výpadek provozu.
Odnesl jsem si z toho jedno zásadní a důležité ponaučení, které platí nejen v IT, ale v životě obecně: Nikdy nevěř pouze tomu, co ti říkají. Ověřuj si informace sám – podle své intuice, zkušeností a odborného úsudku. Opatrnost a pozornost k detailům se vždycky vyplatí.