ÚPVII Pracovná skupina K9.4 Lepšie dáta

Tu sa medzičasom deje viacero vecí, postupne to sem nahodím.
Asi najväčšia novinka je, že sa reálne začala príprava nového zákona o údajoch. Detaily a diskusia tu: Zákon o údajoch

Zopár odrážok k ostatnému stretnutiu podskupiny “Referenčné údaje”:

  • Dátová kancelária má nového špecialistu pre kvalitu údajov - Andrej Fukas

  • KPMG dodala finálne výstupy k riadeniu kvality údajov, teraz prebieha formálne schvaľovanie na úrade, ale v podstate je to akceptované, toto je k tomu oficiálny text:

Metodické príručky ÚPVII, ktoré by mali pomôcť správcom údajov, dátovým kurátorom, resp. ostatným zodpovedným osobám nastaviť procesy manažmentu kvality údajov vo vzťahu k registrom, v rámci ktorých sú vedené a to konkrétne:

  • identifikovať biznis pravidlá voči určeným ukazovateľom dátovej kvality,
  • rozbehnúť procesy merania dátovej kvality,
  • identifikovať a riešiť problémy spôsobujúce nedostatočnú kvalitu údajov:

Metodika merania dátovej kvality vo verejnej správe

Výpočet KPI dátovej kvality pre jednotlivé inštitúcie verejnej správy

Ako zlepšiť kvalitu údajov?

Zoznam konkrétnych odporúčaní pre inštitúcie verejnej správy z ohľadom zlepšenie dátovej kvality

Návrh datasetu parametrov dátovej kvality vo verejnej správe vo formáte otvorených dát

Prezentácia prvého komplexného merania dátovej kvality vo verejnej správe

(koniec oficiálneho textu)

Tie dokumenty zväčša neuškodia ani nepomôžu. Kto chce vidieť, prečo ani svetovo špičkové konzultačné firmy nezachránia slovenský eGov, pozrite si “prezentáciu prvého komplexného hodnotenie dátovej kvality vo verejnej správe” a tam údaje za RPO - vyšlo že vo všetkých parametroch je kvalita tohto registra nad 99,7%. Haha.

Potom sme diskutovali práve o RPO a jeho známych nedostatkoch kvality údajov tohto registra. Imho toto dostať do poriadku by mala byť priorita, snáď aj väčšia ako pokračovanie reklamne ľúbivých tém quickvíťazstiev.

Viaceré ďalšie úrady, ktorých registre majú byť vyhlásené za referenčné, potom hovorili ako si to predstavujú. Obvykle sa to zaseklo na jednoznačnej identifikácii právnických osôb. Napr. fin. správa nechce plošne zverejňovať DIČ, že to je ich interný identifikátor, ale v IČOách je skrátka zatiaľ príliš veľa chýb…

Keď už sme pri tom, povedať aké “biznis pravidlá dátovej kvality” (terminológia KMPG) treba pri nejakom registri sledovať vedia najlepšie konzumenti údajov z tohto registra. Oni najlepšie vedia čo si musia odkontrolovať skôr než si údaje pustia do svojho systému. Povedzme pre to RPO.

A len tak pre zaujimavost, co su tie problemy RPO, ktore neodhalili? Na druhu stranu, je pravda, ze to hodnotenie bolo trochu simplisticke…

No veď v RPO chýba podstatná časť údajov, najmä z malých registrov. A aj to čo sa tam nahráva z OR+ŽR má podstatné problémy ak nie úplne sedí. A duplicity. A je veľká chybovosť údajov, napr. skutočné adresy. Ja viem že časť z toho sa “iba” prenáša zo zdrojových registrov, ale to ma pri hodnotení kvality vôbec nezaujíma - lebo práve na to RPO slúži, aby všetkých odtienil od detailov zdrojových reg. Pomenujme v čom je problém (ak je - a všetci hovoria že je), a potom bude lepšie vidieť čo treba robiť.

Ešte raz: skús sa na RPO pozrieť ako konzument údajov, povedzme Soc.poisťovňa. Čo potrebuješ a v akom je to stave? Kedy bude môcť SP “stotožňovať”, čiže zahodiť svoju evidenciu a nahradiť ju tým čo je v RPO? Lebo momentálne hovoria že ani náhodou, a to ani keď im to zákon prikazuje - lebo nekvalita údajov.

Mne to prišlo doslova smiešne, že všetci sa dlhodobo sťažujú na nekvalitu RPO a konzultanti si v pohode vykážu 99.X%. Veď aj kebyže nič o RPO neviem tak mi iba pri počívaní o čom sa hovorí na PS zúrivo bliká červená kontrolka.

Pozeram slide 19 a k RA a (po prestudovani detailov = o.i. napr. “V prípade 425669 záznamov
obsahuje zemepisná dĺžka hodnotu NULL (36,086%).
”) je teda vysledok pre ukazovatele RA-1 a RA-2 dost zly: 63.9%. Po InspirujmeSe (geo konferencia minuly tyzden v Tatrach) pozeral kolega podobnu metriku pre PSK [1] a vyratal, ze:

  • 68% zaznamov ma koordinaty
  • 49.9% (z celkoveho poctu) ma koordinaty v PSK

Viac by ma ale zaujimalo, nakolko automatizovane a opakovatelne toto meranie je. Lebo od teraz by bolo velmi zaujimave “kreslit casovy graf” a pozerat, ci a ktore metriky idu hore.

[1] https://data.gov.sk/dataset/adresy-podla-krajov/resource/03785168-1b0b-45e3-b6ba-be3884ada2b8

Opatrenie c. 32 v zalozke “Odporucania” sa mi velmi paci: “Zabezpečenie jednoduchšieho prístupu k datasetom potrebným pre meranie a riadenie dátovej kvality (napr. Prístupy do všetkych informačných systémom by mali byť na úrovni READ kedykoľvej. Export dát z databázy by mal byť pre zodpovedné osoby ľahšie možný a najlepšie vo formáte SQL).” NA druhu stranu, po skusenostich s data auditmy, ktore prebiehali vramci OGP mi zostava silno dufat, ze KPMG resp. UPVII bude schopne vyrazne lepsie organizaciam vysvetlit, co to presne znamena.

Potom ale trochu nechapem, preco ma “Nastavenie proaktívnych kontrol pre zdrojové systémy – kontrola bude prebiehať už pri vstupe údajov na základe definovaných technologických a procesných požiadaviek.” priotitu iba 2 zatialco “Implementácia a zabezpečenie nástroja na riadenie dátovej kvality (v súčasnosti existuje platforma Talend, ktorá je zabezpečená na úrovni PaaS služby v štátnom cloude).” ma prioritu 1.

OK, ma to niekde niekto spisane presnejsie? Chapem, ze do RA sa kope lahsie (adresne body v Afrike su vcelku jasne, to sa ani Moricom Benovskym neda vysvetlit :slight_smile: ), RPO je tazsie. Tak preto vrtam.

1 Like

A podla tychto bodov sa to mohlo dat odmerat konzultantom…

Poznamka bokom: Kedze vsetky udaje z RPO mame v nasom https://ekosystem.slovensko.digital/ a dokonca mame reportovaci tool. https://bi.ekosystem.slovensko.digital/, tak pokial niekto ma napad co vieme odmerat jednoduchym “selectom”, tak to tam v klude dajme.

Za mna z toho co o RPO viem namatkovo:

  • udaje napriec roznymi registrami (ZR a advokati a ine) maju problematicke casove prekryvy osob - nesedia od-do.
  • sem tam nejake udaje (historicke) zmiznu (nedosiel som na to podla akeho kluca) a nahradia sa novymi, kde su neni nejake osoby (konatelia, staturari) co tam boli.
  • zmeny ico a ich historicke prekryvy (toto som videl ak si spravne spominam iba par krat), nejaka firma mala rovnake ico ako ina firma co davno zanikla.
  • podiely na zakladnom imani sa dost blbo stotoznuju s osobami. aj clovek ma niekedy problem to pospajat. mam pocit, ze toto je proste zly datovy model.
  • RPO ma nejake interne unikatne ID na zaznamy, ale je to spravene velmi divne (v case pribudaju pre jednu firmu dalsie a dalsie “cez frontend nevyhladatelne zaznamy”, cize ako jednoznacny identifikator PO to rozhodne nie je pouzitelne.
1 Like

K Registru adries: pred cca. 2 mesiacmi spravil gestor tohto registra skutočne dobrú vlastnú prezentáciu stavu kvality údajov. (Ono gestori obvykle presne vedia v akom stave to majú a kde ich tlačí päta, častokrát však akoby “nebola vôľa” prezentovať si pravdu ani medzi úradmi.)
Že GPS súradnice pre veľa adresných bodov nie sú uvedené je “na počet chýb” asi najvážnejší nedostatok. Aj sa tu už rieši, najmä kvôli sčítaniu obyvateľov, ktoré by malo byť založené práve na údajoch z tohto registra. “Už” znamená, že pol roka vyjednáva MVSR a ŠÚSR, kto zaplatí tých cca.300K Eur, ktoré vraj stojí plošný komerčný nákup doplnenia týchto údajov. V slávnom OPII samozrejme na toto peniaze nie sú. :wink:
Každopádne v RA sú aj iné, subtílnejšie chyby a mal som z tej prezentácie pocit že MV ich rieši. Historicky časť problému vznikla tým, že za časť údajov RA “od ulice nižšie” zodpovedajú obce, ktoré však nedostali pokiaľ viem žiadnu priamu podporu pri napĺňaní/riešení kvality svojich údajov, iba zákonnú povinnosť. OPII/OPIS opäť nič, z toho sa platilo iba “vybudovanie” registra.

Keďže celý RA je verejne dostupná ako OpenData, kto chce môže vyrobiť aj denne merané veličiny. Tuším tie query sme aj tu na platforme niekedy písali.

Btw. k meraniu presnosti GPS súradníc by ma zaujímala suma “odchýliek bodu RA a <verejné API> geocoding bodu pre danú adresu”. Verejné API napr. google, here.com, alebo bing. Cieľ je toto mať =0.

K RPO:
no veď presne, očakával som, že ten_kto_robí_komplexný_audit, dá dokopy zmysluplné parametre ktoré je treba merať. Toto je najťažšia robota. No nevadí, ako som písal v Dátovej kancelárii je nový špecialista na kvalitu údajov, tak snáď toto preberie on a dúfam že túto diskusiu aspoň číta. Áno, pri RPO vnímam ako najbližší krok určiť sadu kritérií ktoré chceme sledovať.

Ad “opatrenie c.32” - mal som pocit že aspoň jeden úrad na týchto audítorov hľadel dosť s dešpektom a dával im najavo že veľmi spolupracovať ani nechcú.

Ad “nastavenie proaktívnych kontrol” - čistá všeobecná teória. Častokrát nejaké IT-čkarske “kontroly vstupu” nemôžu brániť zápisu do registra.

Ad “nástroj na riadenie dátovej kvality” - toto hodnotím ako čistú neschopnosť písať skripty v Unixe, alebo rozchodiť si nejaký FOSS analytický nástroj. Plus akonáhle sú v registri nejaké citlivejšie údaje - napr. OÚ, predstava že úrad celý register nakopíruje niekam vedľa kvôli analyzovaniu kvality je smiešna ilúzia, najmä keďže problémy kvality ten úrad obvykle dobre pozná. Viď. predstavy riešiteľov CSRÚ, ako sa všetky údaje nasypú na kopu a tam sa budú “opravovať”.
Alebo práve vidíme vznik zadania pre pekný eurofondový projektík.

Nieco ako:

SELECT sum(cena) FROM studie_uskutocnitelnosti WHERE text ILIKE ‘%licencie Talend%’

? :slight_smile: :confused:

Relevantne:

Na UPPVII dnes bolo dalsie zasadnutie K9.4 . Program:

  1. Zhrnutie činnosti Pracovných skupín a Dátovej kancelárie za rok 2019
    • Dátová kvalita (meranie dátovej kvality na rezortoch)
    • Referenčné údaje (plán vyhlasovania referenčných údajov)
    • Otvorené údaje (úlohy, rebríčky; EU regulácia OD a PSI, FFoD)
    • Moje údaje (technologické riešenie na otestovanie konceptu)
    • Legislatíva (Zákon o údajoch, Stop byrokracii,…)
    • Podujatia
  2. Informácia o stave národných projektov v gescii Dátovej kancelárie a dopytových výzvach v oblasti údajov
  3. Prerokovanie návrhov na vyhlásenie základných číselníkov a referenčného registra (v prílohe pozvánky):
    • Návrh na vyhlásenie referenčného registra adries
    • Návrh na vyhlásenie základného číselníka Časť obce
    • Návrh na vyhlásenie základných číselníkov Úradu geodézie, kartografie a katastra
  4. Priority na rok 2020
  5. Iné, navrhnite

Prilohy:

Par mojich poznamok:

Zhrnutie činnosti Pracovných skupín a Dátovej kancelárie za rok 2019

dat. kancelaria vznikla cca 2019/03 v pocte cca 5, dnes ich je 10

Dátová kvalita (meranie dátovej kvality na rezortoch)

zakl. vyznam/ucel/ciel: zavedenie exaktnych meratelnych ukazovatelov

zodpovedni su najma spravcovia registrov

  • UPPVII je “organ vedenia”
  • vid z. 95/2019 a novo pripravovany zakon o udajoch

aktualne vystupy su na stranke UPVII

  • pripravovala KPMG
  • obsahuje: navody, pilotne merania, …

merania sa budu/maju robit aj opakovane, aby bolo mozne hodnotit dopad vykonanych opatreni

pilotuju na cca 20 dat. zdrojoch/OVM

Referenčné údaje (plán vyhlasovania referenčných údajov)

narazili o.i. na leg. obmedzenia:

  1. UPPVII moze reagovat iba na navrhy predkladane spravcami, nepredklada sam
    • ale ziadne OVM sa zatial neprihlasilo same od seba
  2. ref. udaje “zverejnovane/poskytovane” cez CSRU: niektore “poskytnutia” su real-time, t.j. dopyt na konkretnu polozku, takze ziaden dataset, cize neexistuje ziadny uceleny zaznam o tom, kedy aka hodnota plati(-la)

plan vyhlasovania:

  • RA
  • nedopatky na daniach a clach
  • nedplatky soc. poist.

bariery pri vyhlasovani: nizka kvalita zdroj. udajov

  • “pikoska”: MS prezentovalo ze udaje o skl. odchadzke su ba 99%, neskor ale nedostatocmu kvalitu pouzili ako argument pri pomalom vyhlasovani prisluchajuceho ref. registra

zakon proti byrokracii:

  • zajra (18.12.2019) ide na vladu navrh na dasich 9 vypisov
  • viazu sa na to urcite data:
    • reg. upadcov
    • reg. hosp. zvierat
    • projemcovia min. st. pomoci

plany na 2021-2022: cca 200 navrhov/napadov

  • UDZS, ZVJS, UV SR, …
  • napr. ZA a PO VUC planuju rozne registre, ale ostatne VUC nie - mierne otazne, kedze by chybali udaje za ostanych 6 VUC
  • pri niektorych planoch chyba predstava, komu by to na co bolo: vcely, krmiva, …

otazka zucastneneho: zislo by sa poskytnut zoznam projektov, kedze mnohe slubuju nejake data

  • preco:
    • napr. MZP potrebuje vyhodnotit prekryv s INSPIRE
    • samotne UPPVII tiez vyhodnocovalo a bude vyhodnocovat urcite atrubuty projektov
    • MNO sa tiez radi pozru, vyhodnotia, porovnaju, …
  • MetaIS je to miesto, kde su resp. maju byt dostupne dokumenty o schvalenych projektoch, o.i. kvoli analyze/kontrole, ze kto ci slubil
    • schvalene projekty maju byt zverejnene uz dnes, bez potreby prihlasenia
    • Datalab (a.k.a. datova kancelaria UPPVII) uz ma tabulku/analyzu projektov (cca 30) za prve kolo schvalovania, posnazia sa zverejnit

vyzvy/financovanie: financie uz su takmer vycerpane

Ciselniky

doplnok k tomu, co je v casti “plan vyhlasovania” (vid vyssie)

o.i. katalogizovali udaje o spravcoch a vytipovavali zoznam ref. ciselnikov

vztah. s kvalitou: aby ref. udaje boli zadavane do registrov podla ciselnikov (t.j. nie “free style” ako jezial caste dnes)

Otvorené údaje (úlohy, rebríčky; EU regulácia OD a PSI, FFoD)

plnenie NKIVS cielov:

  • niektore metriky su “sialene”: pocet stiahnuti, …
  • zatial sa teda pracuje na metodike vykazovania
  • dovolil som si pripomenut, ze:
    • pre komunitu su vyznamnejsie KPI typu “v top 5 rebricka EUDP”, kedze to ma zmysluplnejsiu a prepracovanejsiu metodiku
    • a naopak napr. pocty stiahnuti datasetov povazujeme za bezvyznamne (a nepamatam si, kto to tam pridal)
    • plus ze KPI su z 2016, kedy boli velke ambicie, lebo:
      1. “zhruba dalsia miliarda na IT”
      2. dokonca data a Open Data boli (a su) jednou z priorit programoveho obdobia a IT balika eurofondov
      3. (v tom casebolo) 4-7 rokov na implementaciu

v EU rebrickoch sme 4. od konca (vs. ciel “prva 5”)

novy akcny plan OGP:

  • USV ROS “odstupuje” od Open Data …
  • … “vedenie” prebera “Strategia NASES” (dokument)

publ. minumum pre st. spravu bude UPPVII vypracuvat od 2020/01

  • publ. minimum pre samospravu “bolo skusene”, nevyslo

EU regulacia:

  • nova PSI: “high value” datasety

Moje údaje (technologické riešenie na otestovanie konceptu)

vystupy:

  1. koncept
  2. OpenAPI standard
    • autorizacia:
      a) vo vlastnej rezii alebo
      b) cez CSRU; autorizaciu overuje vo vysledku IAM (cez “mobile ID” od DEUS)
  3. proof of concept aplikacia
    • v uzavretom rezime je Datapp apka pre Android uz dnes v AppStore
      • je to “vedlajsi produkt” na otestovanie hlavneho vystupu: OpenAPI
      • budu zdrojaky?
        • budu (v zmysle platneho zakona o ISVS)
        • uz dnes by na Datalab mala byt starsia test verzia

63 schvalenych nar. projektov -> UPVII sa im bude venovat z pohladu spristupnovania osob. udajov

par technickych hintov:

  • DEUS: mob. ID
  • Digi.me: sifrovany prenos

Legislatíva (Zákon o údajoch, Stop byrokracii,…)

zakon o udajoch

finalizuju MPK k zakonu o udajoch

upravena verzia pojde este raz do MPK

  • o.i. teda z toho bude “zakonnik udajov”
  • “presuvaju” don niektore “polozky” z inych zakonov:
    • ref. registre
    • zrejme neskor Open Data (t.j. buduca transpozicia novej PSI bude zrejme v tomto nmvom zakone)
  • vacsie previazanie s GDPR: analyticke jednotky, opravnenia a povinnosti dat. kuratorov, moje udaje, …

zakon proti byrokracii

bezi 3. vlna

uspory kol 1 a 2 boli vycislene na 8M€ rocne, uspory 3. kola su odhadnute na 18M€

dalsie vlny: nadalej ist po zivotnych situaciach a pocetnostiach

ale: napr. RFO je uz rok referecny, mnohe urady vsak nadalej nestotoznuju a pytaju potvrdenia od obcanov

naraza sa aj na technologicke limity:

  • napr. system dochodkovych davok je z r. 1975 (niesom si isy, ci som dobre pocul) => pre zdielanie sa musi
    spravit “udelatko”
  • inde maju “distribuovanu DB” na baze FoxPro a emailov

Informácia o stave národných projektov v gescii Dátovej kancelárie a dopytových výzvach v oblasti údajov

vyslo na to uz len poslednych cca 3-5 minut

dopytove vyzvy mali uspech, o.i. kvoli vzorovym projektom

UPPVVI ma 4 projekty:

  • Open Data 2.0 schvaleny
  • EVS Open Data projekt pozastavneny (niekde na MV SR)

pripravuju hackathony

Prerokovanie návrhov na vyhlásenie základných číselníkov a referenčného registra (v prílohe pozvánky):

Návrh na vyhlásenie základných číselníkov Úradu geodézie, kartografie a katastra

11 ciselnikov: udaje o pozemku, stavbe, …

priprava na neskorsie vyhlasenie ref. registra parciel

Návrh na vyhlásenie základného číselníka Časť obce

sucast RA

tiez priprava na neskorsie vyhlasenie RA ako ref. registra

vid navrh

udrzba: ocakava sa cca 5 zmien rocne

  1. MV SR, v MetaIS
    • hlavne miesto zverejnia
    • uz je dostupny dnes, na login, v test. verzii
  2. Stat. Urad, v ich systeme

dolezite su polozky prislusnosti k obci, cez SK NUTS kody - tot aby bolo jasne, kam ktora cast patri

vtah tohto ciselnika k registru zakladnych sidelnych jednotiek (SJ) v gescii MZP?

  • neriesili, lebo SJ nie je spravna jednotka
  • SJ dnes nema “pravne silne” postavenie

Návrh na vyhlásenie referenčného registra adries (RA)

referencne nebudu vsetky “stlpce”

  • typicky sa vynechavaju koordinaty, kedze ich vela chyba, us nespravne a pod.

su tam aj URI: kazdy adresny bod bude mat jednoznacny identifikator

  • o.i. budu pouzite pri stotoznovani

ocakacane vyhlasenie registra:

  • odhadom 2020/01-02
    • po KS a MPK

Priority na rok 2020

nevysiel cas

asi zrejme tu: https://metais.vicepremier.gov.sk/studia/list

Tot tu, ak si dobre pamatam: https://www.slovensko.sk/_img/CMS4/strategia_otvorene_udaje.pdf

Resp. historicka referencia aj tu: OpenData stratégia - pripomienkovanie

Dnes na tom pracuje MNO Alvaria, vid napr. https://www.alvaria.sk/chybajuce-publikacne-open-data-minimum/

Nemile, kedze EVS cast ma zabezpecit ludi a IT cast “Open Data 2.0” ma tym ludom zabezpecit adekvatne vybavenie. Len teda ako ta IT cast vie, co bude adekvatne pre ludi, ktori pridu neskor a teda nemaju sancu sa v IT projektu vyjadrit?

Tot use-case na repozitar zdrjovych kodov (aktualne pripravovany projekt “Open Data 2.0”). Ale zase NASES take zvladol uz v minulosti, dokonca pocas vyvoja, vid:

28.1.2020 sa na ÚPVII konalo stretnutie “PS Referenčné údaje”. (Kedze v tom zacinammat chaos, lebo o.i. nepojuzivaju MetaIS ale len maily s “vela ludi v TO:”, tak to dam zatial sem.)

Ohlasena agenda:

  1. Informácia o aktuálnom stave návrhu Zákona o údajoch a o zahrnutí témy “Referenčné údaje” do návrhu zákona

    1. Informácia o aktuálnom procese pri vyhlasovaní Registra adries za referenčný register a o nových číselníkoch
  2. Diskusia k vyhláseniu vybraných údajov katastra nehnuteľností ako referenčných údajov a to za nasledovné oblasti:

    a) Geografické názvy nesídelných objektov

    b) Geografický priebeh administratívnych hraníc, Hranice katastrálneho územia (KÚ), kraja, okresu, obce

    c) Údaje o nehnuteľnostiach: Parcelné číslo reg. C a reg. E, druh pozemku reg. C, BPEJ

    d) Geometrické a polohové určenie parciel reg. C a reg. E (katastrálna mapa a mapa určeného operátu)

Poznamky nemam, nestihol som sa zucastnit. Zapis neviem ci je resp. ci bude.