Przed uruchomieniem systemu aplikacyjnego można znacznie zmniejszyć wady i ukryte zagrożenia poprzez intensywne testy, ale ponieważ środowisko symulacyjne testu nie może być dokładnie takie samo jak rzeczywiste po uruchomieniu systemu, prace testowe nie mogą objąć wszystkich scenariuszy produkcji i eksploatacji systemu aplikacji IT, a trudno jest uniknąć wystąpienia awarii systemu aplikacji IT w konkretnym scenariuszu. Ponieważ ukryte ryzyko awarii jest nieuniknione, bardzo ważne jest, aby umieć spokojnie radzić sobie z błędem! Najlepiej jest wiedzieć z wyprzedzeniem, przewidzieć możliwe problemy systemu aplikacji IT i podjąć działania, gdy problem nie wystąpi, aby wyeliminować usterkę w zarodku. Bez względu na to, jak poważne to jest, musimy jak najszybciej wiedzieć, jakie problemy wystąpiły w systemie i gdzie się pojawiły, oraz zająć się nimi na czas, zanim się rozprzestrzenią, aby uniknąć eskalacji sytuacji. W rzeczywistości, ponieważ te dwa punkty są nadal trudne do zrealizowania, presja związana z eksploatacją i konserwacją jest bezprecedensowa! Patrząc na obecne przedsiębiorstwa z wysokim stopniem konstrukcji informacji, reprezentowane przez banki, rozwój biznesu staje się coraz bardziej zależny od IT, złożoność ich aplikacji IT rośnie, a kontrolowalność staje się coraz gorsza. Ale czym jest ból głowy, bo w tak intensywnej sytuacji pościgów i przechwytów awarie systemów nadal się zdarzają, ryzyko pojawia się raz za razem, a często drobne problemy ostatecznie przeradzają się w poważne awarie – jaki jest tego powód? Dlaczego zawsze jest opóźnienie w odkrywaniu danych? Dlaczego różne metody monitorowania nie mogą wykryć nieprawidłowości od razu? Trzeba to rozłożyć na czynniki pierwsze. Pod względem głównych aspektów pracownia komputerowa dzieli się na dwie kategorie: podstawowe zasoby oraz systemy aplikacyjne IT. Od dawna przywiązujemy dużą wagę do podstawowych zasobów, takich jak sieć, host, przechowywanie, temperatura i wilgotność pokoju komputerowego, a metody monitoringu można opisać jako "uzbrojone po zęby". Do monitorowania systemów aplikacji IT obecnie krajowi i zagraniczni producenci oraz dostawcy usług dostarczają wiele produktów lub rozwiązań, a zakres monitorowania ma własny charakter; kompleksową analizę, ich praktyką jest głównie obserwowanie wydajności systemu aplikacji IT na podstawowej warstwie zasobów, poprzez ruch sieciowy, wydajność systemu, zajęcie CPU, zajęcie pamięci, dostęp do bazy danych, status middleware i inne wskaźniki, w połączeniu z analizą logów, eksploracją sond, dostępem do symulacji i ekstrakcją proxy oraz innymi metodami uzyskiwania określonych informacji o punktach czasowych działania systemu. Można w ogóle ocenić ogólny stan działania systemu, te produkty lub rozwiązania nie mają ciągłego śledzenia i monitorowania szczegółów działania systemu, przez co nie są w stanie uchwycić szczegółów dotyczących stanu działania każdego modułu w systemie aplikacji IT, a nawet punktów funkcjonalnych pod modułem; te szczegóły obejmują: Jakie transakcje przetwarza system? Który się powiódł? Co jest problematyczne? Kto inicjuje transakcję? Kiedy zostanie wydany? Czym się zajmujesz? Który moduł systemu jest zaangażowany? Który punkt funkcji odpowiada za przetwarzanie? O której godzinie wraca odpowiedź? Czy są jakieś nieprawidłowości w wydajności? Jeśli nie uda się, to jaka jest wina? Są one bardzo ważne przy ocenie statusu działania systemu aplikacji IT. W praktyce, na początku awarii systemu aplikacji IT, gdy punkt awarii ma niewielki wpływ na podstawowe zasoby lub nie został jeszcze przesłany do warstwy zasobów podstawowej, albo awaria występuje w przerwie między użyciem logów, sond, proxy i innych środków, chociaż ryzyko systemowe było "podprądowe", często istniejące metody monitorowania nie mogą odgrywać roli, a prezentacja zewnętrzna również nie jest "bez nieprawidłowości". To także podstawowy powód, dla którego wykrywanie usterek opóźnia się i jest trudne do rozwiązania! Widać, że terminowe wykrywanie awarii systemów "za pierwszym razem" jest wadą obecnej obsługi i utrzymania IT, a także ma ogromne znaczenie dla nadrabiania obsługi i utrzymania IT. Czym jest "pierwszy raz"? To znaczy, w procesie reagowania systemu aplikacji IT na żądania dostępu, w momencie niepowodzenia lub nieprawidłowego wystąpienia transakcji musi być ona dokładnie zarejestrowana! Wszyscy wiedzą, że wczesne wykrywanie można rozwiązać na czas, a aby odwrócić obecną bierną sytuację działania IT i zrekompensować niedociągnięcia w obsłudze i utrzymaniu IT, konieczne jest techniczne rozwiązanie problemu wykrywania awarii systemów "od razu". Dzięki porównawczym badaniom i praktyce pracy dużej liczby systemów aplikacji IT, ten pomysł jest technicznie wykonalny, ale osoby w biurze mogą być dotknięte myśleniem inercjalnym, nie wychodzić z pierwotnego sposobu myślenia, a nawet uważać, że nie jest to możliwe w subiektywnej świadomości, co nie prowadzi do istotnego przełomu w tym aspekcie pracy, a ryzyka operacyjne aplikacji IT zawsze są w pasywnej sytuacji fragmentarycznej reakcji. Kluczem do realizacji "pierwszego razu" wykrywania awarii systemu jest "uprzejmość" systemu aplikacji IT, opanowanie każdego jego ruchu, a w szczególności dokładne obserwowanie szczegółów działania systemu aplikacji IT oraz ścisły nadzór nad każdym modułem i punktem funkcjonalnym, jednocześnie monitorowanie to musi być ciągłe i nieprzerwane, tylko w ten sposób, aby nie przeoczyć żadnych nieprawidłowości w transakcjach systemowych, tak aby działanie systemu aplikacji IT było w stanie kontrolowalnym. Ponieważ proces ten może uzyskać i gromadzić szczegółowe informacje o stanie działania systemu, tworzyć bardzo cenny plik operacji systemu, poprzez jego analizę i wykorzystanie może nie tylko stanowić punkt referencyjny do oceny jakości każdego modułu i punktu funkcjonalnego, ale także stanowić podstawę do analizy rozwoju i zmiany stanu działania systemu, umożliwiając przewidywanie trendu zdrowia systemu aplikacji IT.
|