Denník NP OpenData 2.0

dusoft · November 3, 2021, 8:53am

Dobra blbost a zaroven dobra ukazka neefektivity statnej spravy. Moze prebrat funkcne riesenie za lacno, namiesto toho vymysla predrazene verejne obstaravania.

ericsko · November 3, 2021, 9:09am

…a povedzte mi Kefalin: Co si predstavujete pod pojmom “prebrat funkcne riesenie za lacno”?

dusoft · November 3, 2021, 9:40am

je to popisane vyssie, co nemozu za lacno prebrat, teda system data.gov.cz / MFF UK.

Vy mate inak v naplni prace travit pracovny cas na forach slovensko.digital?

Milan1979 · November 3, 2021, 11:36am

Asi si nerozumieme, praveze ideme prebrat “lacno” open source system, pravepodobne z CR, ale kludne aj ine riesenie (napr. reuse kodu z Europskeho dataportalu), ktore nam donesie to, co potrebujeme - o tom komunikujeme aj tu, aj na pracovnych skupinach, atd… Obstaravat nasledne v “kroku 2” budeme len to, co budeme potrebovat nad to existujuce open sourcove riesenie.

dusoft · November 3, 2021, 11:59am

cize toto tvrdenie neplati?

Milan1979 · November 3, 2021, 12:04pm

Plati. Nejdeme cestou “Priameho zadania” autorom ceskeho portalu… ale implementaciu Open sourcoveho riesenia (CR ci ineho) si obstarame - cez VO, aby sme dodrzali transparentnost nasej cinnosti.

jsuchal · November 3, 2021, 12:04pm

Dúfam, že áno.

liska · November 3, 2021, 12:16pm

Ja budem oponovať, ja si teda myslím že je toto ukážka efektivity štátnej správy (hoc určite vždy sa všetko dá urobiť lepšie), a asi aj toho, že neviem jednoducho písať veci a asi si nerozumieme. Práveže namiesto vývoja projektu nanovo (2.2M), chceme použiť data.gov.cz, a ten budeme musieť ešte dodatočne upraviť.

1)

nasadenie portálu nie je o jednoduchom spustení inštalátora, a hotovo, ale potrebujeme naň 150MD. Teda autor portálu toto deklaruje. Kým taký portál bude fungovať, je potrebné urobiť množstvo vecí:

Webový portál (jako data.gov.cz) - 10 MD
Specifikace metadatového záznamu a rozhraní lokálních katalogů DCAT-AP-SK 2.0 - 20MD
Datový katalog - 90MD
Vyhodnocování kvality metadat a dostupnosti registrovaných zdrojů - 10MD
Migrace stávajících DCAT dat na DCAT-AP-SK 2.0 do nového katalogu - 10MD

Čiže vidíš, tu máš 140MD, ešte treba nejakú dokumentáciu, nasadia nám to tiež na github, atď.

Pre zaujímavosť si pozri tieto dátové pipelines

Pre nás je toto super, lebo ak si budeme chcieť zmeniť napr. meranie dátovej kvality, zmeníme už len pipeline, alebo ak budeme chcieť harvestovať lokálne katalógy cez iné rozhrania, napr. pre geodáta, tak tiež jednoducho zmeníme pipeline.

Čiže nasadenie takéto portálu je tých 150MD, a to je 70.000EUR. Žiadne licencie, len odborná robota. Myslíme si, že najlepšie zvládne toto autor.

2)

Avšak to stále nie je všetko. Treba dorobiť autentifikáciu a vsadiť ju do existujúcej, a tým že česi sú úplne decentralizovaný, nemajú úložisko, takže musíme dorobiť aj úložisko. A potom je tu teda aj služba na ukladanie súboru do úložiska, a posledná hlavná vec je zosúladenie designu na ID-SK.

To je tá druhá fáza, kde sme stanovili 400K ako strop na realizáciu. My sa budeme snažiť v dátovke aj toto urobiť čo najefektívnejšie a najlacnejšie, momentálne sme vo tomto bode.

3)

Tým že vie český portál harvestovať iné katalógy, plánujeme harvestovať aj súčasný data.gov.sk, kde budeme merať kvalitu metadát, napr. dostupnosť distribúcií (či je živá linka), resp. správnu štruktúru metadát (problém časovej platnosti distribúcie).

Čiže už aj po prvej fáze portálu, tj. nasadenie NKODu do testu, pokiaľ sa dorobí funkcionalita 2, tak budeme s ním dávať do ordnungu existujúce opendata.

dusoft · November 3, 2021, 2:52pm

Ja ale hovorim o tom, ze to nejdete priamo lacno obstarat, ale idete cestou VO, kde nemusi dana univerzita ani byt zucastnena. A to je ten zasadny problem, nie potencialna uspora 2,2 mil. vs 70 tis… Ta je v tomto bode absolutne neista.

liska · November 3, 2021, 3:08pm

Priznám sa že nerozumiem tomu lacnejšiemu obstaraniu. Pretože dielo má svoju komplexnosť a jeho autor ho za 150MD customizuje. Vyššie som to trochu rozpísal, čo sa tým myslí.

Máte na mysli rovno priame zadanie? Ja by som do toho osobne šiel najradšej, viem sa za to argumentačne postaviť, zatiaľ ale máme interpretáciu, že to nemôžeme urobiť, lebo to sa dá len v prípade, keď len jediný niekto vie niečo urobiť. Hoc je toto jedinečné, je to aj opensource, čiže určite sa nájde niekto, kto to dokáže nasadiť tiež, hoc za výrazne viac času (podľa mňa).

Alebo máte na mysli ešte niečo iné? Sme otvorení každému vylepšeniu.

dusoft · November 3, 2021, 3:33pm

Ano, priame zadanie.

Milan1979 · November 3, 2021, 7:51pm

Vzdy sa da jasne zhora obmedzit maximalna cena, ktoru sme ochotni zaplatit (70000, co je cca ocakavana cena priameho zadania). Takze vyssia cena vysutazena nebude - najhorsim vysledkom maximalne bude, ze to VO bude neuspesne, lebo sa ho nik nezucastni - co dufame, ze sa nestane.

Milan1979 · November 4, 2021, 5:57am

Toto je zaujimava cast, ako vo vseobecnosti zabezpecit doveryhodnost otvorenych udajov. Z principu nechcem spochybnovat konanie kohokolvek (ani verejnej spravy), ze z akejsi “prezumpcie viny” ocakavam, ze budu v buducnosti robit nieco “nevhodne” a spatne upravovat nejake (open) data. Toto moje nastavenie ale asi nestaci a uz vobec nie pre konzumentov, ktori potrebuju istotu.

Mame v projekte niekolko moznosti, ako sa pohrat aj s touto temou. Mate nejake navrhy, ako to riesit? Pamatam si na Itape pred par rokmi diskusiu (prednasku) k tomu, ci by aspon metadata mohli byt zahashovane a pripadne vyuzite v blockchaine… bola by toto mozno cesta, ako to skusit? Resp. nejaka ina cesta, ak sa pojde cez Open API? @liska Mirec, nezachytil som, ze ako to maju riesene v CR?

Pripadne dam dopyt do tych EU Open data skupin, co sme clenmi.

grlb · November 4, 2021, 6:33am

Nejde o prezumpciu viny či neviny, ide skôr o to, že život ukazuje, že dôvera niekedy nestačí … Typicky ak sa odhalí nejaká chyba, ktorá sa následne odstráni a to vedie k oprave dát. Často vidím okolo seba snahu chyby skôr ututlať, než sa k ním priznávať. A oprava chyby (a možno aj dát) bez toho aby sa o tom dozvedeli konzumenti týchto dát môže viesť k zbytočným problémom.

liska · November 4, 2021, 7:19am

Podľa mňa v Českej republike nemajú žiadne elektronické podpisovanie, ani blockchain na to, aby boli otvorené dáta dôveryhodné. Astronomicky si prajem, aby sme my z posledných miest v EU čo sa týka otvorených dát, tieto veci ani neriešili, ale iba sme poučili z fungujúceho egovernmentu z iných krajín EÚ, a pre mňa je ČR vzor.

Ja vnímam terajšie naše úsilie ako dobiehanie toho čo funguje.

Aby som bol ešte dodal, všetky zamýšlané pocčka v tomto projekte, tj. PoC Blockchain, PoC KEP, a aj PoC Centrálny model! (hoc je to moja srdcovka, aj si myslím chýbajúci základ eGovernmentu a vidím tu aj konkrétny prínos, napr. validáciu Centrálneho modelu (pravidiel na kvalitu údajov)) vo vybraných datasetov (publikačné minimum),
aj tak by som všetky PoC vypustil a sústredil sa len na základ a teda na dobiehanie iných štátov. Konkrétne na dobrý portál, povedzme na vylepšenie evidencie dotácií + opendata (samostnatný evidenčný systém), podpora samosprávy - napr. harvestovanie ich portálov, a potom by som sa sústredil najmä na zber dát.

Priznám sa že nápadov mám milión, ako by sa dalo urobiť to či ono. Ale v eGovernmente, ak vidím dobré existujúce riešenia v inom štáte, toje pre mňa prioritnejšie.

Možno ale niekto má iný názor, prosím prezentujte sa.

Ako to majú s dôveryhodnosťou opendát v ČR samozrejme odkonzultujem. Len pripomínam, že tam majú aj OVMka povinnosť využívať otvorené údaje na výkon verejnej moci. Aspoň ja som tomu takto porozumel.

liska · November 4, 2021, 7:24am

Ja by som si toto prial. Lenže nie som právnik, a nemám na to znalosti. Určite by sme nechceli ohýbať zákonné možnosti, aj keď partia z MFF je pre nás svetová špica.

Nechcem si ale predstaviť, že MFF bola potom poťahovaná za to, že sme jej dali priamu zákazku. Oni na nás ani milimeter nezávisia, o spoluprácu žiadame viac menej my, pre nich je to zaujímavé len preto, že je to ich dielo.

Musím sa ale priznať, že to pre mňa divné, dopredu si priať, aby vo VO niekto konkrétny uspel, pretože si myslím že nikto iný to nedá v takom čase, v takej kvalite. Už len si zoberme, že súčasný portál síce má pripravený SPARQL Endpoint,
https://data.gov.sk/sparql
ale ani dodávateľ Globaltel, to asi nebol schopný rozbehnúť. Tak rád by som videl zmluvu, čo bolo predmetom dodávky OD1.0, resp. super by bolo keby bol celý kód zverejnený. Ja som zadal issue, že prečo to nechodí, ale odpoveď išla do stratena. A pritom aj v administrátorskej príručke sa o tomto Enpointe hovorí, dokonca sú tam screenshoty z nasadenia do ich vnútorného testprostredia. Bohužiaľ do produkcie sa to už nedostalo.

ericsko · November 4, 2021, 7:33am

Rad sa tu startujem k vykonom. Byva to tu skvele motivacne…

liska · November 5, 2021, 10:00am

K PoCčkam ešte:

Ako som už povedal, ja by som najradšej tieto témy neriešil, odhadujem ich neveľký prínos. Chcel by som sa sústrediť na dôležité veci.

Ale keby nás niekto presvedčil že to má význam, úplne najlepšie že niečo s týmito technológiami sa niekde v EÚ používa, tj. KEP alebo blockchain s opendátami, tak by to hneď vyzeralo lepšie. To PoC pre Centrálny model snáď správime interne aj bez VO, takže

Tu je aktuálna verzia pohľadu na PoCčka. Je to z môjho pracovného excelu, kde sa veci menia, a ja ho čoskoro ho dám na nejaký share, nech je stále prístupný. Spolu s ďaľšími dokumentmi.

Kedže potrebujeme urobiť zmenu NFP, a čas uteká, musíme sa posunúť. Terajšia podoba PoC vyzerá zatiaľ takto:

liska · November 5, 2021, 5:22pm

Uvedené analýzy určite zohľadníme v maximálnej možnej miere, predstavujú jedny z najlepších analýz v oblasti Otvorených údajov. Vidím to tak, že máme na to katalóg požiadaviek, resp. množinu katalógov požiadaviek k jednotlivým komponentom OD2.0. kde musíme ustrážiť, aby tam boli veci ktoré považujete sa dôležité a nájdeme zhodu ako ich realizovať.

Keďže sme už v marci aktualizovali požiadavky, myslím že celkom otvorene a komunitne, dokonca sme spolupracovali aj s Martinom Šechným (hoc mohlo sa dať z našej strany viac), myslím že sme už ako-tak mergnutí a nemala by nás prekvapiť zásadná vec.

Teraz to môžeme opraviť. Času nemáme veľa, pretože 2023 musí projekt skončiť a byrokracia okolo projektu je väčšia a komplikovanejšia ako projekt samotný. Myslím ale že to vieme zvládnuť, ak správne rozdelíme požiadavky ku komponentom. Len zhrniem.

OD2.0 má 3 základné oblasti.

Portál - ktorý má dve časti, tj. jadro: správa katalógu OD + nadstavba: autentifikácia, storage, sk design
Rozvoj - publikacne minimum, opendata komunita, govgit
PoC - blockchain, elektronicky podpis, centralny model

Podľa mňa Vaše požiadavky plynúce zo spomínaných analýz sa musia vložiť do jednotlivých oblasti a častí, kam patria.
Čo sa týka 1 - portálu, tam chceme ísť minimálnou cestou, čiže funkčný portál sa bude strašne podobať na český, nemecký, holandský, španielsky … proste keep simple.

Veci ako spatná väzba, toto presne patrí k 2 - rozvoj. Čiže musíme čím skôr jednotlivé požiadavky zaradiť do jednotlivých fáz. My budeme riešiť VO na prvú časť v prvej doméne veľmi skoro. Katalóg požiadaviek čoskoro zverejníme. Je to vlatne tamten hore pôvodný, len tam ostali požiadavky v rozsahu portálu data.gov.cz

Toto je otázka, čo sa tým myslí. Ja som ako dátový kurátor nahodil pár datasetov, a podľa mňa problém je v zložitej autentifikácii na prvom mieste. Samotné priloženie súboru, keď som nahadzoval distribúciu bolo naopak veľmi hladké. Až na to, že to strašne dlho trvalo, aj keď sa nahrával malý pár KB súbor.

Ak je to o tej autentifikácii, tak to platí k požiadavkam pre 2. časť portálu, keď sa bude riešiť toto. Tam to ešte nemáme jasné (teda presne na papieri ako to mám byť).

Počet stiahnutí datasetov - toto tiež musíme presne definovať, čo to znamená, aký to má mať účel. V ČR napr. to nesledujú, pretože ak máš zkatalogizované OpenDataAPI, ktoré sa používa nejakou aplikáciou, tak potom nemáš žiadne reálne info. Takisto, ak link smeruje na web nejakého OVM, a používateľ sa tam naučí chodiť rovno, tiež toto nezapočítaš. Započítaš vlatne len kliky v rámci portálu, čo môže byť OK, v konečnom dôsledku to ale nemusí byť tá smerodajná informácia.

Ak nájdeme kompromis čo to má byť, môžeme to dať do časti 2. portálu.

S prihlasovaním našej vlatnej komunity rátame, toto je pre nás druhá oblasť projektu - Rozvoj, hoc autentifikáciu musíme už vyriesiť dopredu v portáli. Ktoré funkcie máš na mysli že sú ale sú zabité kvoli prihlasovaniu?

liska · November 6, 2021, 11:45am

Keď sme sa dotkli týchto analýz, najmä

tak mi dovoľte jednu vec ale opraviť, je veľmi dôležitá, a týka sa toho SPARQL Enpointu, ktorý neúnavne presadzujeme.

Portálov s otvorenými údajmi a so SPARQL Endpointom nájdeme množstvo:

česko: https://data.gov.cz/sparql
španielsko: Punto SPARQL | datos.gob.es
eu: OpenLink Virtuoso SPARQL Query Editor
uk: ONS Geography Linked Data | SPARQL, api.parliament.uk/sparql
nemecko: SPARQL-Assistent - GovData
…

V analýze je malý odstavec k SPARQL Endpointu: “Vzhľadom na veľmi malý počet datasetov s formátom RDF, je tento nástroj nevyužitý.”.
Tu by som rád povedal, že SPARQL Endpoint nie je na prístup k RDFkovým distribúciam datasetov. V podstate nemá nič s nimi spoločné. Do vnútornej databázy portálu sa nenahrávajú žiadne dáta, len sa skatalogizujú ich metadáta. A nové portály na to používajú už RDF databázy (triplestores), tj. metadáta o katalógoch, datasetoch a ich distribúciách sú prepojené otvorené dáta. V oblasti popisu metadát otvorených údajov sa používa štandard DCAT.

Toto mi vysvetlí model dát.

Načo mi to vlastne je?

Aby som môhol cely katalóg (Národný Katalóg Otvorených Dát)NKOD dotazovať ľubovoľne v rozsahu jazyka SPARQL (čo niečo ako SQL len na triplestore). Čiže napr.

vráť mi zoznam všetkých datasetov
spočítaj počet všetkých CSV distribúcií
spočítaj len datasety Statistickeho uradu vytvorených v marci 2019
zobraz datasety z augusta 2020, ktoré majú kľúčové slovo COVID
…

V súčasnosti sa robí štantistika portálu veľmi komplikovane, teda aspoň čo som mal možnosť vidieť. Zo systému sa generujú EXCELY, a tie sa potom spracovávajú. Namiesto toho je úplne ideálne mať predpripravené dotazy, a tie len spustiť voči databáze. Samozrejme toto má skončiť peknými štatistikami na klientovi, aby si aj netechnický človek vedel napr. štatistiky pozrieť.

Ďaľšia vec je, že SPARQL Endpoint sa používa aj ako API do systému. Nemusím mať na tvrdo nakódené služby ktoré vracajú nejaké datasety (hoc samozrejme to niekedy je lepšie) ale sám si skoštruujem dotaz podľa toho čo potrebujem aj si vypýtam formát ktorý mi vyhovuje.

Takže náš plán rozbehnúť SPARL Endpoint data.gov.sk čím skôr, resp. možno si ho ešte predprojektom rozbehneme samy, na inom serveri. A plánujeme takto zostaviť jednak štatistiky a jednak začať merať dátovú kvalitu.

Koho by táto téma zaujímala, môžete si pozrieť prvé dokumentačné veci na opendata.gov.sk - Ako si rozbehať vlastný triplestore, naloadovať NKOD a dotazovať ho:

Bohužiaľ, zistili sme že služba súčasného portálu https://data.gov.sk/catalog.rdf vracia len prvých 100 záznamov, čiže čaká nás ešte zápas o celý dump súčasných metadát.

edit: Ešte posledná info. V projekte OD2.0 rátame s databázou Virtuoso (podobne ako v ČR). Licencia je 1000 USD/Rok, hoc dá sa prevádzkovať aj bez podpory. Ako v ČR. My ale s tými zatiaľ na pár rokov rátame, mimálne počas trvania projektu.

https://virtuoso.openlinksw.com/pricing/