Monitoring dostupnosti statnych webov


#1

Len tak medzi nami, toto sa dá celkom ľahko merať aj zvonka. Nezapneme nejaký pingdom na nich?


Statna IT firma (zdielana IT kapacita na strane statu)
#2

Pingdom vyzera fajn. Ale je tu riziko, ze napr. sa pingne webovy server, ktory je UP, ale vsetko ostatne je DOWN, to asi nevie pingdom bez nejakeho pristupu osetrit. A mate tam aj nejaky ucet na dlhsie ako 14dni?


#3

Pingdom bol priklad. http://alternativeto.net/software/pingdom/ - suhlas, ze najst tie spravne endpointy na monitorovanie nemusi byt lahke.


#4

Ale vyskusat by to bolo dobre. Lebo ani ked sme sa bavili na UPVII ako to sledovat, tak sme na nic lepsie neprisli, ako
a) pingovat dostupnost nejakeho verejne dostupneho komponentu, aj s rizikom ze komponent ide a sluzba nie,
b) dat do nejakeho standardu sluzby/weboveho sidla, ze musi poskytovat nejake standardizovanerozhranie na monitoring dovnutra, (tu je ale otazne, ci by sa tym nieco dosiahlo, lebo ved nie je nic jednoduchsie ako zapnut si rozhranie co sa vzdy bude tvarit ze je OK)
c) dat do standardu, ze projekty maju mat aj status stranku, kde sa reportuje stav, toto by sa mohlo scrapovat.
b) a c) su behom na dlhe trate. Aspon by sme videli, ci sa nieco da ziskat z a) - t.j. pingovania.


#5

Taketo som nasiel. Je to celkom fajnove a neni to ani drahe.

Ak mate nejaky zoznam url co treba sledovat tak sem s nim nahadzem to tam.


#6

A co sa bude sledovat toto https://www.cep.financnasprava.sk/cep/portw/cep.ui.cms/sk-sk/obchodníci.aspx
alebo
https://www.cep.financnasprava.sk/CEP/procw/iam.web/Login?returnUrl=https%3A%2F%2Fwww.cep.financnasprava.sk%2FCEP%2Fportw%2Fcep.ui.web.wdo%2FLogin%2FIndex%3FreturnUrl%3Dhttp%3A%2F%2Fwww.cep.financnasprava.sk%2Fcep%2Fportw%2FCep.Ui.Web.WDO%2FFormulare%2FVyhladat%3FformName%3DSK415&appId=WDO

Nejake dalsie typy
https://www.itms2014.sk/
https://metais.finance.gov.sk
https://www.slovensko.sk/sk/titulna-stranka
https://rpo.statistics.sk/rpo/#


https://odoprave.info/wps/portal/pub/Home/uvod
Mozno na zaciatok staci, nech s tym nie je vela roboty?


#7

Asi si vypnem alerty.


#8

Monitoring je implementovany v metais (4.3 Aktívny monitoring - https://metais.finance.gov.sk/confluence/download/attachments/2621442/Integracny_manual_MetaIS_v6.pdf?version=2&modificationDate=1473670097563&api=v2). Je teda namieste rozbiehat nieco ine alebo tlacit na to, aby stat pouzival to za co uz zaplatil?

Metais: Kazda (aplikacna) sluba (moze mat) ma definovane endpointy na ktore sa da zapnut monitoring v metais. Endpointy aplikačných služieb sú evidované v MetaIS: modul eGovernment komponenty / Aplikačná služba / Endpoint / karta Detailné informácie. Vsetky endpointy viete vytiahnut z metais, ale ocakavajte v nich aj endpointy, ktore nie su validne (napr. localhost, 192.168.0.1, http://url\nhttps://url, …).
Pokial aj sluzba nema aktivny monitoring zapnuty v metais, tak by spravca sluzby mal pravidelne nahravat do metais metriky o SLA svojej sluzby.

Monitoring: chcelo by to presnejsiu specifikaciu. “ping” zavisi od implementacie konkretneho monitoring nastroja, takze monitorivaci ping moze byt iba vytvorenie ICMP/TCP/HTTP spojenia. Pripadne sa moze monitorovat na app leveli, t.j. robit GET/POST/HEAD/… requesty s analyzou odpovede (response code, response time, response string, …).


#9

my sme na ITMS2014+ dali toto https://newrelic.com/application-monitoring?utm_campaign=Search%20-%20Brand%20-%20New%20Relic%20Brand%20-%20EMEA%20-%20Exact&utm_medium=PS&utm_source=GEMEA&utm_content=new%20relic&kclickid=015dbe4e-65ab-46eb-9b9c-33ce53d0c40e&gclid=Cj0KCQjw7pHLBRDqARIsAFyKPa7irX_A2eXs6uiOM4NXox88vjlsVgUlNDokTsX6mWmNBgcCoIopJncaAnvhEALw_wcB ako sucast nasho interneho monitoringu aplikacie


#10

A kto bude monitorovať monitorovacov? https://updown.io/k098


#11

Ten monitoring tam je implementovany, ale
a) ta funkcionalita sa podla mna ani zdaleka neda porovnat s nejakou komercnou sluzbou
b) nema to kto spustit, musel by si presvedcit UPVII nech na to alokuju nejaky ludsky cas, ktory si myslim ze nemaju
c) trvalo by to ovela dlhsie ako to co spustil @jsuchal
d) ak by sa to spustilo, minimalne by bolo zaujimave porovnat vysledky, ci su rovnake


#12

Z principu sluzby typu pingdom, updown.io budu ukazovat horsi uptime ako realne slovenske statne weby maju. Prvy dovod je ze ich monitorovacie “sondy” su mimo Slovenska, takze je tam vacsi vplyv sietovych problemov po ceste na samotny uptime. Kedze cielova skupina pouzivatelov je na Slovensku, tak aj monitoring sonda by mala byt na Slovensku. Druhy dovod je, ze do oficialnej dostupnosti (SLA) sa (vacsinou) nezapocitavaju planovane odstavky. Nuz a zial my (+ nas monitoring dostupnosti) prevazne nevieme o nejakych planovanych odstavkach.

Napriklad podla https://updown.io/k098 bol dnesny uptime 97.91% pre metais. Z UI iba vycitam, ze connection timeout a nic viac. Takejto hodnote uptimeu, zial na 99% neverim a tipujem, ze to bol network problem (bez mojho monitoringu to vsak neviem potvrdit). 5min granularita merania je taktiez nevhodna, coho dosledkom neobjektivne zvysuje pripadnu nedostupnost. Moj osobny standard pre web je monitoring kazdych 30 sekund a az ked 3 po sebe nasledujuce kontroly su v PROBLEM stave (test na response code, response time a content string check), tak az potom je web realne DOWN.

Navrh 1 - on premise Zabbix (mnou preferovane riesenie):
1.) Konfiguracia: git repo so zoznamom monitorovanych endpointov spolu s test parametrami vo vhodnom formate (json,csv,…)
2.) Monitoring: Zabbix nainstalovany na uzemi Slovenska, ktory bude synchronizovat cez API (skript, CI) monitorovane web endpointy so zoznamom v gite
3.) Vizualizacia:

  • povoli sa guest user v Zabbixe, tak kazdy bude moct vidiet read only data v Zabbixe
  • k Zabbixu sa vie pripojit aj Grafana na vhodnejsie dashboardy
  • kedze Zabbix pouziva relacnu DB (MySQL,PostgreSQL,…) je mozne ho napojit aj do Metabase
    4.) Alerty - mozu byt podla potreby, napr. #monitoring slack kanal a ak problem trva viac ako hodinu moze to ist aj do #general aby sme sa tam mali na co stazovat

Najvacsia narocnost bude nastavit ten process synchronizacie medzi gitom a Zabbixom. Plusom je moznost ist az na 1sek granularitu monitoringu a steps pri web monitoringu (napr. login, akcia, logout). Nie je ani narocny na zdroje (backend je C).

Navrh 2 - SaaS Worldping - https://worldping.raintank.io
Je to produkt od Grafana Labs, free verzia ma 1M requestov zdarma. Pre nas je potrebna platena verzia, kde si mozme nastartovat vlastnu monitoring sondu na uzemi Slovenska. Je to all in one riesenie. Problemy mozu byt s alertami, kedze nateraz podporuju iba emaily. Je dostupne aj API, takze konfiguracia sa moze taktiez synchronizovat z gitu.

Este sa mozte pozriet na dalsie monitoring systemy - https://en.wikipedia.org/wiki/Comparison_of_network_monitoring_systems
Zo SaaS je IMHO top https://www.thousandeyes.com/, ktory je priamo zamerany na sietove problemy po ceste.


#13

Dobry den,

Z principu sluzby typu pingdom, updown.io budu ukazovat horsi uptime ako
realne slovenske statne weby maju. Prvy dovod je ze ich monitorovacie
"sondy" su mimo Slovenska, takze je tam vacsi vplyv sietovych problemov
po ceste na samotny uptime. Kedze cielova skupina pouzivatelov je na
Slovensku, tak aj monitoring sonda by mala byt na Slovensku. Druhy dovod
je, ze do oficialnej dostupnosti (SLA) sa (vacsinou) nezapocitavaju
planovane odstavky. Nuz a zial my (+ nas monitoring dostupnosti)
prevazne nevieme o nejakych planovanych odstavkach.

Vseobecne, predpokladat v 21. storoci ze cielova skupina nejakej
elektronickej sluzby je na Slovensku je nezmysel. Prave ti, ktori nemaju
moznost ist osobne na urad maju obrovsku motivaciu pouzivat elektronicke
sluzby. Dokonca si myslim, ze dnes je to vacsina realnych pouzivatelov
sluzieb egov.

Napriklad podla https://updown.io/k098 bol dnesny uptime 97.91% pre
metais. Z UI iba vycitam, ze connection timeout a nic viac. Takejto
hodnote uptimeu, zial na 99% neverim a tipujem, ze to bol network
problem (bez mojho monitoringu to vsak neviem potvrdit). 5min
granularita merania je taktiez nevhodna, coho dosledkom neobjektivne
zvysuje pripadnu nedostupnost. Moj osobny standard pre web je monitoring
kazdych 30 sekund a az ked 3 po sebe nasledujuce kontroly su v PROBLEM
stave (test na response code, response time a content string check), tak
az potom je web realne DOWN.

Ano, pre stroj to fungovat moze. Akurat nepoznam uzivatela ktory vydrzi
klikat 90 sekund na web aby az potom prehlasil “to fakt nejde”.

Navrh 1 - on premise Zabbix (mnou preferovane riesenie):
1.) Konfiguracia: git repo so zoznamom monitorovanych endpointov spolu s
test parametrami vo vhodnom formate (json,csv,…)
2.) Monitoring: Zabbix nainstalovany na uzemi Slovenska, ktory bude
synchronizovat cez API (skript, CI) monitorovane web endpointy so
zoznamom v gite
3.) Vizualizacia:

  • povoli sa guest user v Zabbixe, tak kazdy bude moct vidiet read only
    data v Zabbixe
  • k Zabbixu sa vie pripojit aj Grafana na vhodnejsie dashboardy
  • kedze Zabbix pouziva relacnu DB (MySQL,PostgreSQL,…) je mozne ho
    napojit aj do Metabase
    4.) Alerty - mozu byt podla potreby, napr. #monitoring slack kanal a ak
    problem trva viac ako hodinu moze to ist aj do #general aby sme sa tam
    mali na co stazovat

Najvacsia narocnost bude nastavit ten process synchronizacie medzi gitom
a Zabbixom. Plusom je moznost ist az na 1sek granularitu monitoringu a
steps pri web monitoringu (napr. login, akcia, logout). Nie je ani
narocny na zdroje (backend je C).

Navrh 2 - SaaS Worldping - https://worldping.raintank.io
Je to produkt od Grafana Labs, free verzia ma 1M requestov zdarma. Pre
nas je potrebna platena verzia, kde si mozme nastartovat vlastnu
monitoring sondu na uzemi Slovenska. Je to all in one riesenie. Problemy
mozu byt s alertami, kedze nateraz podporuju iba emaily. Je dostupne aj
API, takze konfiguracia sa moze taktiez synchronizovat z gitu.

Este sa mozte pozriet na dalsie monitoring systemy -
https://en.wikipedia.org/wiki/Comparison_of_network_monitoring_systems
Zo SaaS je IMHO top https://www.thousandeyes.com/, ktory je priamo
zamerany na sietove problemy po ceste.

Tento zvysok je super, su to aktualne technologie a je naozaj dobre ze
aj v statnej sprave su ludia ktori o nich maju prehlad. Mozno stoji za
zvazenie okrem Zabbixu Prometheus.

r.


#14

Super, čiže by sa k tomu malo dať aj pripojiť OpenAPI style.

Čisto pragmaticky: koľko ešte “štát” zaplatí (aj času) kým rozbehne niečo čo už raz zaplatil?
Samozrejme z dlhodobého hľadiska je absurdné, aby štát nemal fungujúce vlastné seriózne monitorovanie svojich služieb.
Imho je toto dobrý kandidát na objednanie služby, nie diela.

Dovtedy aj rýchle riešenia typu updown sú lepšie ako nič.


#15

BTW som zo sukromnej (zahranicnej) sfery a mal som moznost robit monitoring pre viacero velkych/malych/globalnych/lokalnych firiem (BBC, Autodesk, …).

Suhlasim. Nikto tu vsak doteraz nezadefinoval poziadavku s akou granularitou chceme monitorivovat dostupnost. Mozme ist aj na sekundovy monitoring avsak musime zobrat do uvahy, ze niektore weby mozu mat response time > 1s + connection timeout je tiez zvycajne > 1s => nemusi byt problem pocas beznej prevadzky, avsak v pripade sietoveho problemu, ked vsetky weby budu timeoutovat sa mozes dostat do stavu ze sa nebudu vykonavat niektore testy v ocakavanom intervale. Taktiez pri SaaS rieseni platis za pocet requestov a musis si povedat aku “hodnotu za dane peniaze” akceptujes.

Odhadom pocet potencionalnych pouzivatelov v SR je 5M, mimo SR 1M. Statisticky dava zmysel monitorovat dostupnost zo Slovenska, aby si vedel co najpresnejsie monitorovat pouzivatelsky experience majority pouzivatelov. Pokial neodmerias, ze majorita realnych pouzivatelov egov je mimo SR, tak sa drzim teoretickych predpokladov. (vieme ziskat geo statistiku pouzivatelov za posledny rok napr. pre slovensko.sk?)
Taktiez ak to ide zo SR, kde je to prevadzkovane, tak je predpoklad ze to pojde aj mimo SR. Ak nejde tak to bude asi network problem, kde uz potrebujes network monitoring (thousandeyes), nie uptime monitoring.

Dovtedy aj rýchle riešenia typu updown sú lepšie ako nič.

Ak je poziadavka mat nejaky monitoring dostupnosti, tak potom je riesenie typu updown OK. Ma to pekne farbicky a nieco to monitoruje. Ak sa bavime z technickeho hladiska, tak chceme seriozny monitoring, co uz updown nie je OK. Ak by som bol na strane prevadzkovatela metais a slovensko.digital sa mi bude stazovat, ze vcera mal metais dennu dostupnost 97.11% percenta podla updown.io, tak takyto udaj budem povazovat ze technicky nerelevatny - neseriozny.

Prakticky priklad z mojej praxe: cron script, ktory kazdych 5 minut saturuje sietove rozhranie na 1 minutu, cize vsetky sluzby na danom serveri su z pohladu externeho pouzivatela DOWN na 1 minutu. 1sec graf z monitoringu:

Updown.io nameria v zavislosti od nacasovania testu 100% dostupnost alebo 100% nedostupnost takehoto stroja. Skutocna dostupnost je vsak 80%. Pre mna monitoring typu updown.io nie je seriozny monitoring. Vsak aj samotny @jsuchal si vypol notifikacie, asi kvoli velkemu poctu notifikacii, z ktorych bude vacsina false positive.

Zatial sa tu diskusia toci okolo nastroja, ja by som ocakaval najprv diskusiu o poziadavkach/cieloch monitoringu dostupnosti. Nejak sa neviem ani dopatrat z coho vyvstala tato poziadavka monitoringu dostupnosti z komunity.


#16
Vseobecne, predpokladat v 21. storoci ze cielova skupina nejakej
elektronickej sluzby je na Slovensku je nezmysel.

Odhadom pocet potencionalnych pouzivatelov v SR je 5M, mimo SR 1M.
Statisticky dava zmysel monitorovat dostupnost zo Slovenska, aby si
vedel co najpresnejsie monitorovat pouzivatelsky experience majority
pouzivatelov. Pokial neodmerias, ze majorita realnych pouzivatelov egov
je mimo SR, tak sa drzim teoretickych predpokladov. (vieme ziskat geo
statistiku pouzivatelov za posledny rok napr. pre slovensko.sk?)
Taktiez ak to ide zo SR, kde je to prevadzkovane, tak je predpoklad ze
to pojde aj mimo SR. Ak nejde tak to bude asi network problem, kde uz
potrebujes network monitoring (thousandeyes), nie uptime monitoring.

Tu sa dovolim vratit k povodnemu prispevku. Nejde o potencionalnych
pouzivatelov, pozname ake zufale su cisla zo slovensko.sk Myslim to, ze
prave ti, ktori su mimo uzemia Slovenska maju naozajstnu motivaciu
pouzivat e-gov, pretoze aj ked im hotline, call-centrum a neviemkto
dalsi odporuci prist osobne na nejaky urad, jednoducho to nejde lebo tu
dlhodobo nie su.

r.


#17

Ak chces merat mimo uzemia Slovenska tak musis mat meracie sondy mimo Slovenska. Avsak kde a kolko ak chces pokryt cely svet? Nasobis tym priamo umerne aj naklady na monitoring. Je tu este moznost pouzit RUM - real user monitoring (Dynatrace, AppDynamics a pod), kde sa do webu vlozi monitorovaci JS kod, ktory posiela zvolene metriky na server (web load time, errors, …). Toto vsak uz nezrealizujes nezavisle od prevadzkovatela webu + je to minimalne pouzitelne na API sluzby, kedze tam sa JS nespusta.

K monitoringu monitorovacov https://updown.io/k098, dnesny uptime 98.61% (2x10 minutove vypadky):

Podla thousandeyes, tam bol tiez nejaky problem avsak v mensom rozsahu (snapshot https://gzdnibh.share.thousandeyes.com):


Paradoxne vzdialene Los Angels nemalo problem, avsak blizky Frankfurt mal problem. Z mojho pohladu to vyzera na sietovu nestabilitu a predpokladam, ze realny uptime sluzby bol dnes 100%. Potvrdit to by vsak znamenalo mat meraciu sondu na 1 hop od metais. Tieto externe monitoringy momentalne naberaju chyby od sietovych zariadeni po ceste. Za tieto sietove zariadenia prevadzkovatel metais asi nezodpoveda, takze ich problemy nie je objektivne zapocitavat do uptime-u metais sluzby.


#18

Lacna/free verzia uptime monitora je aj toto: https://uptimerobot.com/


#19

#20

Kedy toto na metais rozbehaju? Za tych par milionov sa to snad dalo zvladnut.