MIRRI Pracovná skupina K9.4 Lepšie dáta

liska · October 22, 2017, 8:57pm

Time Berness Lee (memusím asi predstavovať) o Sémantickom webe, pričom hodne tam hovorí aj o úlohe Linked Government Data

Webinár organizovaný Európskou komisiou (ISA2:SEMIC) 19.10.2017
obrázok

Tu je štandard implementácie anotácie slovenských datasetov cez DCAT-AP
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=20022969

Samozrejme že netvrdím, že LinkedData predstavujú čarovný prútik. Ich úloha bude primárne reprezentovať jednotnosť v dátach v potrebnej miere (referenčné údaje) a otázne je, ako sa to efektívne bude manažovať. Na to existuje viac odporúčaní EK, a tie sa dajú použiť. A s tým, kam sa už dnes dostal MetaIS, a štandardy, som presvedčený že ak sa nebude tlačiť na pílu a bude stále hlavne zameriavať na kľúčové veci, tak som veľký optimista, že si LinkedData svoju rolu splnia. A potom zostane ešte riešiť ďalších 1000 ostatných problémov.

Každopádne, som presvedčený, že nedá sa úplne porovnávať a rovnako riešiť situácie v rôznych krajinách. USA začalo s OpenDatami v podstate na začiatku, kým Slovensko bolo vtedy úplne inde. Slovensko práve tým ako pozadu štartuje, resp. aké je malé napr. z pohľadu počtu obyvateľov (menšie než New York) zároveň je členom EÚ, myslím že práve z tohto môže veľa vyťažiť v silnejších centrálnych dátach.

Lubor · November 6, 2017, 8:09am

Výstup z tejto pracovnej skupiny - dokument SP Otvorené údaje sa bude v piatok schvaľovať v Rade vlády:

Lubor · January 12, 2018, 10:52pm

V novele výnosu o štandardoch ktorému práve končí MPK sú viaceré podstatné zmeny týkajúce sa referencovateľných identifikátorov, dereferenciácie, metadáta pre OpenData a ďalšie veci. Pokiaľ viem, konkrétne znenie zmien nebolo prebraté v žiadnej pracovnej skupine.

Here we go: Pripomienka GPSR Navrhujeme doložku vybraných vplyvov doplniť o špecifikáciu vplyvov na informatizáciu spoločnosti a vplyvov na rozpočet verejnej správy. … Kapitálové výdavky registra trestov, Úpravy/rozšírenie dátovej schémy pre vybavovanie žiadostí o výpis/odpis registra trestov tak, aby bola v zhode s národnými ontológiami podľa jazyka Web Ontology Language podľa § 13 ods. f) opatrenia, ÚSILIE: 60MDs IS EOO, SADZBA: 560,00 eur bez DPH/MD, ODHAD SPOLU: 40 320,00 eur s DPH.

liska · January 16, 2018, 10:34am

[1] ako prvú vec uvediem, že ma za UPVII mrzí, že sa robilo MPK cez koniec roka, takto by to nemalo byť. a to hovorím v zmysle, že UPVII je v prepojených dátach skvelý partner (aspoň niekto).

No musím zareagovať na Lubora k ostatným veciam, nakoľko považujem jeho komentáre k URI dosť tendenčné. A obzvlášť jeden prípad (metadáta) sú krásnym príkladom ilustrujúcim celkovú situáciu spolupráce všetkých čo chcú pomôcť. A z pohľadu transparentnosti patrí riešenie otvorených dát, postupne za 4roky, k tým najviac otvoreným témam.

schválené PS1: 12.06.2017.
https://metais.finance.gov.sk/standardization/votedetail/2

schválené PS1: 06.07.2017
https://metais.finance.gov.sk/standardization/votedetail/5

Toto je skvelý príklad ukážky, ako to funguje. DCAT-AP-SK, bol už prezentovaný na OpenData Meetupe 1.6.2017. Na PS1 bol predložený a prezentovaný 30.10.2017), kde si bol aj ty!
A jedine NASES chcel čas na vyjadrenie sa, iné pripomienky nepadli. Potom sa vypracoval ešte aj návrh opravy GUI pre NASES (čo sú minoritné zmeničky), a zavesil som to aj na vaše slovensko.digital 05.15.2017

odkiaľ neprišla žiadna spätná väzba ani od teba, ani od nikoho iného.
Podľa mňa za týchto okolnosti to malo ísť na MPK, hoc stále platí [1].

Čiže: Ak máš k hocičomu nejaké výhrady, tak to kľudne pošli aj teraz, po všetkom tom zverejnení a čase.

K tomuto: Prvá informácia je, že vidím to prvý krát. A som tomu rád, že je to tak v tejto sekunde. Snáď sa začína niekto chytať, avšak musím povedať že ak je niečo ešte skutočné otvorené, nie sú to URI, ale diskusia, o spôsobe implementácie prepojených dát. A budem len rád, keď sa to niekam dostane. Zatiaľ to vidím to asi takto:

A) prioritné zameranie prepojených dát je na referenčné dáta (či už otvorené, alebo sú použité v rámci 1xdosť). To je rozsah základných registroch, tj. RFO, RPO, RA … pričom GPSR patrí asi do ďaľšieho poolu dôležitých dát. Pre mňa je primárne použitie prepojených dát na základné registre (národné ontológie) a metadát (štandardy EU - DCAT).

B) vypočítanie ceny je otázne: zladenie (zavedenie) URI do publikovaných dát nepredstavuje obrovskú technologickú výzvu, je to RDF/XML, JSON-LD alebo iné, pridáva sa len globálne id(URI), čo je viac než žiadúce. V technickom ponímané ide len o použitie predpísanej schémy. ciže otázne je, ako si toto započítať do ceny.

C) Navyše nepredpokladám že podstatná množina dát sú referenčné dáta, čiže toto treba upresniť.

D) Je len jeden štátny model dát (jedny URI), čiže toto nie je opakovanom odhade 1:1 akoby som potreboval robiť model novej domény od začiatku. Uvedené náklady sú skôr o naučení problematiky, za 60MD sa dá urobiť obrovský model.

D) už dnes sa v projektoch robí UML. Použitie OWL je z pohľadu modelovanie rovnaké ako UML, technicky cez UML profil pre OWL. Aj OWL má triedy, relácie, …, čiže ak si chce niekto pridať za OWL, musí si ubrať aj niečo z návrhu (ak robí napr. UML)

E) Navyše platí, že tvorba nových IS musí byť v zosúladená s UPVII, kde má byť aj podpora tvorby open dát (šablóny pre OpenData).

atď, atď …

Existuje ešte veľa otázok k danej téme. Treba ich jasne pomenovať a vyriešiť.
howg.

jsuchal · January 16, 2018, 10:50am

Mozno by stalo za zamyslenie, ci to nemoze znamenat to, ze to proste nikoho nezaujima. Specialne v momente, ked tu nemame vycistene data v registroch, nefunguje kopec zakladnych veci, obstaravaju sa milionove servisy, planuju projekty za stovky milionov eur.

liska · January 16, 2018, 2:20pm

Viem že to slovensko.digital príliš nezaujíma, najradšej by ste celú túto tému vymazali so všetkých dokumentov. A to že Vám to nehrá do biznis modelu s ekosystémom je čistá náhoda.

Táto správa má pár dní:

Chápem že ani to Vás nezaujíma, je len nejaká blbosť. Ja som osobne na to hrdý a pracovali sme na tom viac rokov. Tak či onak, spoločne sme mohli vytvoriť niečo fakt skvelé. Takto nám ostáva byť separátni. Škoda.

jsuchal · January 16, 2018, 3:09pm

Ach jaj, zase tato konspiracia. Skoda, ze sme to uz rozoberali a nevedel si to nijako vysvetlit. Ale tak teda ta vyzivam, skus znova: Rad by som videl to cislo, kolko sme zarobili tym, ze nepovazujeme za dolezite, aby stat preklopil svoje bordeldata na rovnaky bordel len v ontologiach. Ides…

Je mi to luto, ale moj postoj sa nemeni - nevidim v tom ziadnu velku pridanu hodnotu a nezmeni na tom nic ani jeden tvoj clanok co ti zverejni a nalinkuje eu data portal. Rozpravky o interoperabilite napriec EU… az bude fungovat aspon uplne zakladna interoperabilita na urovni Slovenska, potom mozeme polahky preklopit schemy - tam kde to treba - na nieco europske, dobre? Odhadom tak 2030 by sme o tom mohli zacat rozpravat.

Toto tvoje tazenie za piatimi hviezdickami zacina naberat uz naozajstne kontury pachania nepriamych skod - vid odhady za change requesty na GPSR. A co nam prinesie prechod na skvelu ontologiu na GPSR? Ja tvrdim, ze vobec nic. Lebo pointa je v prepojeni na referencne registre a podla tvojich slov - kedze tu ide len o pridanie globalneho URI - tu nevyriesi vobec nic. Opakujem sa ako stara platna.

Apropo za podobnu cenu ako tento changerequest, by sme mohli mat komplet open data napriklad z RPO alebo uplne nove datasety - co bude neporovnatelne vacsia hodnota za peniaze.

Verejne sa priznavam, ze moja strategia bola tieto tvoje pokusy uplne ignorovat a reagovat len ak to zacne naberat kontury obludnych rozmerov, lebo na to nemam tolko casu a povazujem za uplne zbytocnu vec. Ocividne budem musiet zvazit zmenu strategie, lebo toto uz nabera obludne rozmery a tvoja vytrvalost valcuje nase pokusy o pragmatizmus. Rad sa k tomu aj stretnem, nech si to vyrozpravame konecne, aby bolo uplne jasno.

Lubor · January 16, 2018, 9:02pm

Myslím že táto veta je presná. Neviem prečo informáciu, aké veci sa v novele riešia (vybral som tu veci čo sa hodia do tohto topicu), okamžite pokladáš za útok a ešte k tomu to berieš nejako osobne.

Keď už toto píšeš, konkretizuj - k novele vyhlášky.
Ináč Ťa opakovane vyzývam aby si sa vo vyjadreniach krotil.

Nuž “schvaľovať” prezentáciu, kde je technický postup prevedenia je jedna vec a paragrafové znenie súvisiacich povinností úplne iná. Znenie výnosu som nikde pred MPK nevidel - ak sa mýlim daj vedieť.

Myslia si to zrejme aj ďalšie subjekty, keďže poslali do MPK spolu 262 (ak naše nerátam) pripomienok. Za starých čias, keď boli veci poriadne prerokované vopred, bolo MPK pre výnos o štandardoch obvykle formalita…

Toto je skvelý príklad Tvojej paranoje. Alebo daj vedieť kde som túto konkrétnu vec kritizoval. Napr. si pozri aké pripomienky som poslal do S.D.

Pri metadátach si môžeme vypiplávať štruktúru, ale ja sa radšej chcem sústrediť na tých zopár podstatných parametrov - napr. licencie. A akom stave sú teraz?

V rámci 1x a dosť na to už konečne zabudni. Prečítaj si čo je schválené v dokumente SP Manažment údajov. Centrálny model áno, URI áno, výmena G2G v normálnych štruktúrach.

Ako som napísal do pripomienok - a hovorili sme o tom (viackrát) aj na PS. Tie “jedny URI” sa môžu použiť na “jedny údaje”. To sú stotožnené údaje s ref. registrom a základné číselníky. Lebo ináč “prepojením” dvoch gulášových údajov vznikne guláš na druhú, ktorý sa iba ťažko bude dať opraviť.

Kľúčové údaje - fyzické a právnické osoby - už podľa zákona majú byť všetky stotožnené. Kľúčové číselníky sú vyhlásené ako základné.

Ale zaujíma a úprimne ma to teší. Gratulujem!
Problém je v niečom úplne inom: 1) priority - ja mám tiež asi tak 100 vecí ktoré by sa mi fakt páčili, ale v kontexte súčasného stavu eGov sa skrátka podstatne treba sústrediť na kľúčové veci 2) v situácii plánovania veľkých projektov len aby sa rozflákali veľké peniaze sa každá blbostička zrazu stáva zámienkou pre veľkú implementáciu

Odporúčam dobre si prečítať štúdiu na nový OpenData projekt od Nasesu. Cena 22 miliónov EUR - a žiadne nové údaje z tých peňazí nebudú. Dnes si mal možnosť spýtať sa Finstatu, AFP a TIS, čo v OpenData potrebujú. Stavím sa o deravý bitcoin že ani raz v odpovedi nezaznie “blockchain”, ani “linked data”. Alebo skús túto tému nadhodiť tu v diskusii o ITMS2014+.

liska · January 16, 2018, 10:08pm

… prioritné zameranie prepojených dát je na referenčné dáta (či už otvorené, alebo sú použité v rámci 1xdosť) …

Teraz už rozumiem, napísal som to asi zle, neplánujem presadzovať RDF/XML aj v G2G, to nebolo nikdy na stole. RDF (či už rdf/xml alebo json:ld…) beriem pre open data. Uznávam že RDF/XML bude v G2G možno za 10 rokov, teraz to absolútne neriešim. Záber URI je hlavne na dátové prvky, číselníky a ich hodnoty aby najdôležitejšie open data, resp. referenčné prvky mali dohodnutý jediný identifikátor a hrali spolu čo najviac.

určite nie je mojím cieľom pracovať na tejto téme a potom to celé zabiť nejakým podivným obstarávaním, resp. dodaním nefunkčnej alebo zblúdenej IT komponente štátu. Alebo že sa spustí lavína prepájania všetkého zo všetkým. Pretože aj toto musí mať svoju postupnosť.

určite si to pozriem. ale čo sa týka linked data, tak

je treba malá zmena na GUI, ktorú som špecifikoval pre NASES spolu s RDF/XML, ktoré sa má automaticky vygenerovať aby vlastne išlo toto nefunkčné rozhranie
data.gov.sk/sparql

a bol by to určite dôležitý krok za pár peňazí ku konsolidácií opendata. a je to našpecifikované zadarmo

pokiaľ viem tak zabezpečenie dereferenciácie nie je žiadny veľký projekt skôr konfigurácia

takže chcem len povedať, že prepojené dáta nie sú dôvodom ani základom neefektívneho IT, a zaostávania slovenského IT, skôr naopak.
howg.

jsuchal · January 25, 2018, 9:56am

Mám otázku. Našiel som štúdiu Manažment osobných údajov / služba Moje dáta, ochrana osobných údajov a funkčný rozvoj platformy integrácie údajov.
https://metais.finance.gov.sk/studia/detail/d2112fad-b259-ae0c-157b-8587d43fa79a?tab=documents

Mirror: SU OPII UPVII MDOOU v0.1.docx (6.8 MB)

Zbežne som to preletel a tu mi padla sánka.

Toto sa mi teda vôbec nepáči a podľa mňa to je navyše úplne zle. Žiadne 1x a dosť toto nijakým spôsobom magicky nevyrieši. Je úplne jedno či budú referenčné dáta o fyzickej osobe uložené distribuovane alebo centralizovane. Systémy čo budú pracovať s referenčnými dátami si to aj tak budú musieť ťahať z iného systému (či už centrálneho alebo iného). Prípadné zmeny v referenčných dátach (napr. zmena trvalého pobytu) aj tak budú musieť niekde publikovať (ideálne publish event, nie tlačenie dát do nejakej centrálnej platformy). A kedže referenčné údaje budú aj niekde inde ako v centrálnej platforme, celá výhoda toho, že GDPR sa “vyrieši” centrálne je ilúzia. Lebo každý systém, ktorý sa tých údajov interne dotkne bude musieť GDPR riešiť tiež.

Trend je niečo takéto GitHub - google/rejoiner: Generates a unified GraphQL schema from gRPC microservices and other Protobuf sources - my ideme centralizovať všetky štátne dáta na jedno miesto.

Prosím Vás, kto toto píše tieto dokumenty? Programoval už niekedy?

jsuchal · January 25, 2018, 10:15am

Tak @juraj.bardy mi uz pise, ze toto bolo nepochopenie a je to chyba v dokumente. Ja som zvedavy teda ako toto dopadne.

semancik · January 25, 2018, 10:29am

Zase, aby sme si zachovali trocha objektivity: Centralizacia spravy dat je vo vela pripadoch dobry napad. To je princip IDM/Identity Governance a je to naozaj dobry zaklad pre data protection (kto chce vediet viac tak ask me). V beznych pripadoch (enterprise, telco, academia, …). Problem je, ze nasa statna sprava nie je tento pripad. To si autor asi uplne neuvedomil. Ale ak mam povedat pravdu, autorovi jeho situaciu nezavidim. Ani trochu. A to mam skoro 20 rokov praxe v IDM.

vliv2 · January 25, 2018, 10:36am

tu je to skor nepochopenie co je vlastne ulohou. ze existuju zdrojove registre a referencne registre. A ze problem nie je ani tak o 1x dost. A GDPR sa zase pouzila ako univerzalny argumnent.
Pre to s cim clovek naozaj obieha urady to riesenie nie je. Ale ista predstava ze bude existovat centralna autorita zodpovedna za ine ciselniky ma mozno zmysel.

semancik · January 25, 2018, 10:42am

Striktne povedane, pristupy ako rejoiner vyzeraju super na papiery. Ale to ma tiez svoje limity. Realne, urady potrebuju pristup k datam. Mozu ich zbrat bud z centralneho registra (jednoduche). Alebe centralny register bude mat len meta data a odkaze na aplikaciu co tie data naozaj ma (a la rejoiner). Ale ten druhy pripad je podstatne zlozitejsi (ved pozname “all problems in computer science can be solved by another level of indirection”). Zlozitost sama o sebe by bola prijatelna, ak by naozaj nejaky problem riesila. Lenze, to je v tomto pripade otazne. Aj ked centralny register nebude mat vsetky data, pravdepodobne bude existovat system, co bude davat uradom opravnenia pristupovat k datam v inych uradoch. Asi nejaky identity provider(IdP)/OIDC provider/autorizacny server a podobne. Otazka je, ci tento system nie je bezecnostnym ekvivalentom centralneho adresara osobnych udajov (zjednodusene: ak hackem IdP alebo centralny register dostanem tie iste data). A ak je bezpecnostnym ekvivalentom, je ho mozne zabezpecit lepsie ako centralny register? Alebo zlozitost (a nedostatocna dozretost) technologii sposobia, ze celkova bezpecnost bude nakoniec horsia? A aky komponent bude v skutocnosti zodpovedny za data protection? Kde budem vidiet audit pristupu k datam (kedze to nemusi nutne ist cez ten centralny meta-register lebo ved mame caching)? Ako budem vediet kto ma kopiu dat (obrovska vacsina aplikacii nebude vediet fungovat bez toho aby si urobili kopiu)? Aky komponent bude zodpovedny za konzistenciu (napr. opravy, lebo ved su len dva tazke problemy v IT), archivacie, redukcie dat, spravu consentov/lawful basis a podobne?

Zlozite otazky. Ziadne lahke odpovede. Naozaj, tuto ulohu nikomu nezavidim.

Lubor · January 25, 2018, 11:09am

Nechcem vyznieť príliš netrpezlivo, ale toto všetko sa už predsa riešilo a je k tomu dosť presne popísaný postup, viď. dokument SP Riadenie údajov.
Dôležité je, že tentokrát so zvoleným prístupom súhlasili všetci kľúčoví správcovia údajov, na rozdiel od pokusu o “centrálny register” ala CSRÚ.
Čiže:

centrálny register/úložisko: nie
správa master údajov: každý úrad u seba to čo má referenčné
centrálny komponent na G2G prístup k údajom: áno, centrálny IS, jednotné API, jednotný dátový model
riadenie prístupu: základný level “aký úrad môže vidieť aký typ údajov na aký účel” centrálne, detailný level poskytovateľ údajov u seba
kto môže mať aké dáta: aké komu zákon umožňuje

jsuchal · January 25, 2018, 11:09am

Skusim este moj pohlad k tomu pridat: Centralizacia uloziska dat by znamenala:

a) ze bude musiet existovat nejaky standard pre to ako tam tie data tlacit
b) bude kazdy jeden dataset change request na centralne ulozisko (znie to ako vtip, ale to je napriklad dnes realita v CSRU

a) podla mna je problem, bude z toho metametadatastore co mne v praxi nikdy dobre nefungovalo. b) je zlata bana pre dodavatela.

Dalsi problem je, ze spravu dat realne dnes riesi nejake OVM, ten co ma na starosti zdrojovy register.

Moja predstava ako toto moze fungovat:

Mame centralny bod, ktory udeluje prava na pristup k datam, loguje/audit, sprava pristupov z pohladu pouzivatela, etc.
Mame proxy (ala rejoiner), do ktoreho sa zdrojove/referencne registre registruju a cez standardne API vystavuju sluzby na pristup k datam. Cez nejake GraphQL-like API potom toto proxy dokaze vyskladat query pre data aj z viacerych zdrojov (ak to naozaj treba). Vid moj prispevok tu
Mame event bus (volajme to pracovne kafka), na ktory pri zmene zaznamu v zdrojovom registri vypublikujeme event (zmena trvaleho bydliska osoby bifo123). Tento event bus posle do systemov, ktore na taketo eventy pocuvaju (tie si na oplatku potiahnu data z ref registrov ak treba, napriklad aj cez centralne proxy)

IvanK · January 25, 2018, 11:38am

Art. 25 GDPR Data protection by design and by default

skoda ze v predmetnej studii nie je vysvetlene ako sa tieto principy v rieseni dodrzia.

miso · January 25, 2018, 12:25pm

Je predpokladom tohto riesenia to, ze vsetky data rozsekas na disjunktne datasety cim vytvoris master udaje v zodpovednosti daneho ISVS?

Lubor · January 25, 2018, 12:51pm

Prosím napíš presnejšie, čo vidíš s ochranou osobných údajov ako nevyjasnené.

IvanK · January 25, 2018, 12:57pm

implementacia poziadaviek GDPR (kedy, kto, ako, za co). Magicke slovne spojenie “bezpecnostny projekt” v tomto pripade zdaleka nevyriesi vsetko co treba. Ani zdaleka.