Před spuštěním aplikačního systému lze výrazně snížit vady a skrytá nebezpečí intenzivním testováním, ale protože simulační prostředí testu nemůže být přesně stejné jako skutečné po spuštění systému, testovací práce nemůže pokrýt všechny scénáře výroby a provozu IT aplikačního systému a je obtížné se vyhnout výskytu selhání IT aplikačního systému v konkrétním scénáři. Protože skryté nebezpečí selhání je nevyhnutelné, je velmi důležité umět problém řešit klidně! Je nejlepší vědět předem, předpovědět možné problémy IT aplikačního systému a přijmout opatření, pokud se problém neobjeví, aby se závada odstranila v zárodku. Bez ohledu na to, jak vážné to je, musíme co nejdříve vědět, jaké problémy v systému nastaly a kde se objevily, a řešit je včas, než se rozšíří, abychom zabránili eskalaci situace. Ve skutečnosti, protože jsou tyto dvě věci stále obtížné, je tlak provozu a údržby bezprecedentní! Při pohledu na současné podniky s vysokou mírou informační konstrukce zastoupené bankami se rozvoj podnikání stále více závisle na IT, složitost jejich IT aplikací roste a kontrolovatelnost se stále zhoršuje. Ale co je problém, je to, že i v tak intenzivní situaci pronásledování a zachycení stále dochází k selháním systému, rizika se objevují znovu a znovu a často se malé problémy nakonec vyvinou v vážné selhání – jaký je důvod? Proč je vždy zpoždění v objevování? Proč různé monitorovací metody nedokážou odhalit abnormality hned na začátku? Je nutné to rozebrat. Co se týče hlavních aspektů, počítačová místnost je rozdělena do dvou kategorií: základní zdroje a IT aplikační systémy. Dlouhou dobu přikládáme velký důraz základním zdrojům, jako jsou síť, hostitel, úložiště, teplota a vlhkost počítačové místnosti, a monitorovací metody lze popsat jako "ozbrojené až po zuby". Pro monitorování IT aplikačních systémů v současnosti domácí i zahraniční výrobci a poskytovatelé služeb poskytují mnoho produktů nebo řešení, obsah monitorování má svůj vlastní zaměření, komplexní analýzu, jejich praxe spočívá především v pozorování výkonu IT aplikačního systému na základní vrstvě zdrojů, prostřednictvím síťového provozu, výkonu systému, zaneprázdněnosti CPU, obsazení paměti, přístupu k databázi, stavu middleware a dalších indikátorů, v kombinaci s analýzou logů, průzkumem sond, přístupem k simulaci a extrakcí proxy a dalšími metodami pro získání určitých časových bodů provozu systému. Přibližně odhadneme celkový stav provozu systému, tyto produkty nebo řešení postrádají kontinuální sledování a monitorování detailů provozu systému, takže nemohou pochopit podrobnosti o stavu provozu každého modulu v rámci IT aplikačního systému ani funkční body pod modulem; tyto detaily zahrnují: Jaké transakce systém zpracovává? Který z nich uspěl? Co je problematické? Kdo iniciuje transakci? Kdy bude uveden na trh? Jaký byznys děláte? Který modul systému je zapojen? Který funkční bod je zodpovědný za zpracování? V kolik hodin se odpověď vrací? Jsou nějaké výkonnostní anomálie? Pokud to není úspěšné, co je chyba? Jsou velmi důležité pro posouzení provozního stavu IT aplikačního systému. V praxi, na začátku selhání IT aplikačního systému, když má chybový bod malý dopad na základní zdroje nebo ještě nebyl přenesen do základní zdrojové vrstvy, nebo se porucha objeví v mezerách mezi používáním logů, sond, proxy a dalších prostředků, i když systémové riziko bylo "podprouděné", často však stávající monitorovací metody nemohou hrát roli a externí prezentace je také "bez abnormality". To je také základní důvod, proč detekce chyb zaostává a je těžké s ní jednat! Je zřejmé, že včasné odhalení poruch systému "poprvé" je nedostatkem současného provozu a údržby IT a má velký význam pro kompenzaci provozu a údržby IT. Co je to "poprvé"? To znamená, že při reakci IT aplikačního systému na požadavky na přístup, musí být transakce přesně zachycena v okamžiku, kdy transakce selže nebo k abnormálnímu doběhne! Každý ví, že včasné odhalení lze řešit včas, a aby se zvrátila současná pasivní situace provozu IT a kompenzovaly nedostatky provozu a údržby IT, je nutné technicky vyřešit problém detekce selhání systému "hned na začátku". Díky komparativnímu výzkumu a praxi provozu velkého počtu IT aplikačních systémů je tato myšlenka technicky skutečně proveditelná, ale lidé v úřadu mohou být ovlivněni inerciálním myšlením, nedokážou vystoupit z původního myšlení a dokonce si myslí, že to není proveditelné v subjektivním vědomí, což nevede k žádnému podstatnému průlomu v této oblasti práce, a provozní rizika IT aplikací jsou vždy v pasivní situaci dílčích reakcí. Klíčem k dosažení "prvního" odhalení selhání systému je být "ohleduplný" k IT aplikačnímu systému, zvládnout každý jeho krok, konkrétně provádět důkladné pozorování provozních detailů IT aplikačního systému a uvést provoz každého modulu a funkčního bodu pod přísný dohled, přičemž toto monitorování musí být také nepřetržité a nepřerušované, pouze tímto způsobem, aby se nepřehlédla žádná abnormalita systémových transakcí, aby provoz IT aplikačního systému byl v kontrolovatelném stavu. Protože tento proces dokáže získat a akumulovat podrobné informace o stavu provozu systému, vytvořit velmi cenný soubor provozu systému, prostřednictvím jeho analýzy a využití může nejen sloužit jako referenční bod pro posouzení kvality každého modulu a funkčního bodu, ale také jako základ pro analýzu vývoje a změny provozního stavu systému, což umožňuje předpovídat trend stavu IT aplikace.
|