Denník NP OpenData 2.0

Ahojte,

v tomto vlákne by sme Vás chceli informovať o priebehu Národného projektu Otvorené údaje 2.0, radi by sme zbierali spätnú väzbu, aby projekt dopadol tak len dobre ako sa len dá. Včera som všetko odprezentoval na pracovnej skupine Otvorené dáta, a tam som slúbil že urobím o OD2.0 vlákno, ktoré bude pravidelne aktualizované s informáciami o jeho aktuálnom stave.

Musím sa priznať, že za tento projekt cítim najväčšiu zodpovednosť zo všetkých projektov, ktoré som kedy robil, čiže chcem spraviť všetko možné aj nemožné, aby dobre dopadol. Jeho najväčšiu zložitosť vidím v jeho byrokratickom okolí, nie v samotnom merite veci. Postupy, procesy, metodiky, smernice, vhľášky, toto všetko naplniť je ťažšie než realizovať projekt, obzvlášt keď sa aj predpisy vyvíjajú, a nie vždy zohľadňujú konkrétnu situáciu. Navyše, nikdy som sa nezúčastnil, resp. nepodielal na tvorbe žiadnych verejné obstarávaní, a nerád by som niečo zbytočne pokazil. Radšej by som chcel riešiť vecniarstvo, tj. hlbšie byť v technológii.

Budem sa snaťiž uvádzať aj čísla, reprezentujúce sumy, odhady, aj v skorších fázach, aby sa s nimi dalo ešte niečo urobiť, čiže sa bude stávať, že sa môžu ešte zmeniť. Verím že vždy k lepšiemu. To je cieľ.

Projekt je tesne pred začiatkom, dá sa stihnúť veci upraviť, a aj počas projektu zlepšiť. V posledných mesiacoch navonok o projekte možno nebolo moc počuť, ale o to viac sa diskutovalo vo vnútri. My, opendata vecniari, sme sa snažili po tých rokoch jemne korigovať pôvodné zámery a využiť dnešnú ponuku existujúcich portálov otvorených dát so zverejnenými zdrojovými kódmi. Projekt OD2.0 nie je len o centrálnom portáli, ale o zlepšovaní dát na celom opendatovom fronte. Napr. v Indexe dospelosti otvorených údajov sme poklesli a chceme sa venovať aj tejto problematike, pretože index nám ukazuje aké štandardné predpisy a procesy v štáte nerobíme. Takisto, hoc EÚ už správne tlačí na princípy že otvorené dáta by default (neosobné, neutajované), ktoré už boli zhromaždené OVM v ISVS, zaplatené daňovníkmi, dostať sa k nim je často obtiažne, alebo jednoducho takéto dáta nie sú sprístupnené vôbec. Takže počíta sa aj s rôznymi rozvojovými aktivitami, či podporou komunity, podpora tvorby OpenDataAPI, pár PoC(KEP, BlockChain, CMÚ). Celkovo v NFP bolo schválených 3.5MEuro. Ale poďme postupne.

Toto je krátka história:
Strategická priorita Otvorené údaje (2017)
Štúdia uskutočniteľnosti (2018)
Zmluva o NFP (2019)
Pôvodné VO:

Čiže ako môžete vidieť, na portál sa rátolo s 2.2MB, čo sú aj tisícky MD.

Situácia Október 2021
Riadiaci výbor projektu nám po diskusiách a prípravách podkladov vyšiel v ústreti (September2021), a dostali sme možnosť rozpracovať variantu počítajúcu s otvoreným zdrojovým kódom portálu. Kedže už nejakú dobu spolupracujeme z ČR v širšom kontexte, a ich portál nám vyhovuje, je to predbežne nás etalón.

Toto je náš okamžitý pohľad na projekt, resp. stav prípravy, kde sa nachádzame.
V jednoduchosti povedané, z pohľadu realizácie, projekt môžeme rozdeliť na novú množinu VO, ktorého výsledkom bude nejaká dodávka,

kde môžete vidieť že jedna vec je nasadiť aj opensource (tam počítame s 70000, pretože máme odhady že český portál sa dá za to nasadiť)

avšak stále je potrebné dorobiť autentifikáciu, zosúladiť grafický design SK-ID , a posledná vec je úložisko dát, ktoré Český NKOD zámerne nepodporuje. Okolo tejto veci chceme ešte viesť široku diskusiu. Aj pre nás by to bolo ideálnejšia decentralizovaná architektúra, keď dáta ostávajú na OVMKu, či už na ich webových sídlach, alebo sú poskytované cez OpenDataAPI ISVS OVMka, alebo sú harvestované z lokálneho katalógu (lokálneho opendatového portálu) OVMka. Toto súvisí aj s dôverihodnosťou a využítím opendát (keďže sú na zdroji) a aj s novým konceptom povinného používania otvorených údajov vo vnútri goproste všetko čo má zmysel zverejniť čo najskôr ako to pôjde. V tam prosím pochopte že tieto veci vernmentu (Verejný datový fond), ku ktorému chceme konvergovať.

Ďaľšia vec sú aktivity našich interných ľudí, kde hľadáme viac posíl (znalosti sa musia držať aj v štáte), ktorí budú spolupracovať na tvorbe produktov VO, napr. pre portál rátame s rolami:

ako aj na množine nadprojektových aktivít:

PS: Toto nie sú ešte všetky interné aktivity, len ktoré vidno na daných screenshotoch. Ešte to celé zosumarizujem a vyzdieľam.

Ja momentálne dokončujem OPZtko (zverejním) na prvé predpokladané VO, čo je nasadenie a konfigurácia NKOD. Toto sú hlavné ciele, ktoré čakáme od portálu:
Toto riešenie nám splňuje nami definované hlavné ciele portálu:

S OD2.0 súvisí aj legislatíva, tj. zákony a vyhlášky, atď. Tie predstavím čoskoro. Definíciou otvorených údajov meniť neplánujeme, skôr chceme jasne zakotviť povinnosť katalogizácie metadát otvorených údajov v NKODe, presne tak ako to majú česi.

Najbližšií RV je 2.11. 2021. Držte palce, a prípadne nám pomožte komentármi tu, prípadne sa prihláste pracovať k nám, napr. na tie modré úlohy.

Čo sa plánuje urobiť s doterajším portálom otvorených dát https://data.gov.sk/ ktorý beží na neaktualizovanom https://ckan.org/ vo verzii 2.2.3 z roku 2015?

CKAN plánujeme podobne ako Česká republika nepoužívať, kvoli jeho nesúladu s DCAT. Hoc je stále ešte otvorená otázka, či zriadime úložisko, a vtedy by to mohol byť kandidát.

Prístup na nový portál budeme podporovať primárne cez SPARQL Endpoint (funkčný) (a vyzerá to že bude použiteľné aj GraphQL).

Plán je taký, že keď sa nasadí nový NKOD, tak bude istý čas (kým sa dorobí autentifikácia a ID-SK a možno aj storage) bežať paralelne s aktuálnym data.gov.sk. Kedže on už bude vedieť harvestovať DCAT z data.gov.sk, cez

podobne ako to robí EU dataportál, budeme mať aj nový NKOD naplnený metadátami, čo budeme využívať na meranie kvality metadát (napr. dostupnosť datasetov, alebo API) a budeme čistiť a opravovať metadáta a štruktúry v data.gov.sk . Keď sa dokončia kompomenty fázy 2, tak sa naposledy reharvestuje portál a data.gov.sk sa vypne.

PS: nový data.gov.sk (NKOD) už bude mať harvester, a tam sa predpokladá že stále budeme podporovať harvestovanie externého CKANU.

Uvediem konkrétny príklad, chcem mať možnosť stiahnuť celú túto tabuľku vchody (900MB CSV) a nie aby som ju vyzobával stovkami SQL dotazov.

Jasné samozrejme. SPARQL Endpoint nie je o prístupe k dátam, ale metadátam. S týmto to moc nesúvisí, akurát tak, že cez tento endpoint zistíte, či pribudla niekde nová verzia samotného súboru.

To kde bude to niekde, je ešte otvorená otázka. Či bude uložený v centrálnom úložisku ako doteraz, alebo pôjdeme českou cestou, že centrálny portál bude len katalóg a dáta ostanú na OVM, v tomto prípade na nejom opendatovom úložisku registra adries. A centrálny portál ho bude iba katalogizovať a odkazovať na stiahnutie odtiaľ.

Kedže sa nám toto asi nepodarí skokovo zabezpečiť (hoc sa budeme snažiť), predpokladáme že kým nebude spoločný úzus, tak budeme musieť dorobiť aj to úložisko (rátame s tým) , a tam bude uložený ten súbor, ktorý si chcete stiahnuť.

Mať možnosť spoločného bezplatného úložiska pre OVM môže byť lepšia, ako keď si každý začne samostatne nakupovať svoje riešenie pre úložisko.

Napríklad keď vznikla povinnosť zverejňovať zmluvy, faktúry a objednávky, tak rovno malo byť dostupné aj centrálne úložisko pre každého.
Nevznikali by riešenia na kolene, alebo zbytočne platené (lepšie aj horšie) samostatné riešenie.
Pri jednotnom úložisku s API rozhraním by ľahko každá firma vytvárajúca účtovný softvér mohla implementovať pohodlný export faktúr na úložisko.

Videl som zverejňovanie faktúr jednej organizácie pod VÚC, fungovali tak, že účtovníčka nahadzovala údaje o faktúre do účtovného softu a potom druhýkrát zbytočne na web stránku kde ich zverejňujú.

Ako som už písal, centrálnemu úložisku sa pravdepodobne nevyhneme, rátame s tým. Popri tom ale plánujeme challengovať centralizovaný princíp vs. decentralizovaný, resp. hybridný, pretože teraz je v SK hybridný. Tj. datasety môžu byť u OVMka alebo v centrálnom úložisku. Každopádne, určite neplánujeme vyžadovať ukladanie dát do centrálneho katalógu, ale povinne ich v centrálnom portály katalogizovať.

Ja som si nie som istý, že všetky OVM (ministerstvá, podriadené organizácie, samosprávy …) majú ukladať všetky zmluvy, faktúry, objednávky na jedno miesto. To mi príde jednak ako také neživé odkladisko (nechcem rovno povedať dátová skládka) a druhá vec je, že aj kvoli dôverihodnosti je lepšie keď tie opendáta drží ich majiteľ.

Oveľa viac sa mi páči princíp živých otvorených dát, tj. že samotné agendové systémy rovno podporujú publikáciu otvorených údajov, a to či už cez OpenDataAPI, alebo do svojho úložiska, a/alebo vystavia API aby mohli byť centrálnym portálom harvestovateľné.

Napr. také zmluvy, faktúry, objednávky bratislavy by som nechcel aby sa všetky kopírovali na data.gov.sk. Ideálne riešenie je vystaviť harvestovateľné API, ktoré sa zaregistruje v NKOD, viď lokálne katalógy v ČR, a náš centrálny portál si cez toto API naharvestuje nové metadata a aktualizuje ich, kde sa dá všetko nájsť.

Áno, samozrejme, toto nie je správne riešenie. Ideálne je ako som už napísal, že účtovníčka si nahádže svoje faktúry do svojeho systému, ktorý ma harvestovateľné API, a cez centrálny vyhľadávač nad metadátami sa hocikto k týmto faktúram dostane.

Ja to vnímam presne naopak. Keď má OVM dáta u seba, môže ich kedykoľvek zmeniť spätne a vystaviť upravené, napr. objednávky, zmluvy, faktúry atď. Keď sú dáta na centrálnom mieste, spätná manipulácia je podstatne sťažená. Niektoré veci by mali byť inde ako u OVM. Napr. ponuky ktoré prídu do nejakého verejného obstarávania alebo zverejnené dokumenty súvisiace s VO… Je rozdiel keď prídu na diskový priestor OVM, kde má nad tým OVM plnú kontrolu a je rozdiel ak prídu na nejaké nezávislé miesto, kde OVM nad tým až takú kontrolu nemá.

2 Likes

Stretol som sa aj s oznamom na web stránke (po výmene redakčného systému).
*…sa ospravedlňuje, že z dôvodu migrácie webovej stránky mohlo dôjsť k poškodeniu niektorých zverejňovaných dokumentov (zmlúv, faktúr…). *
Na vyžiadanie budú obratom zaslané.

Ten prípad kde to organizácie zverejňujú ručne používajú na účtovníctvo WinIBEU spravované cez VÚC, a potom dá faktúry kolegyni ktorá ich nahadzuje po prihlásení do systému na web stránke VÚC.
Takto ak by zabudla zverejniť nejakú faktúru nikomu nebude chýbať. Ešte dávnejšie mali zverejňovací systém tak, že po prihlásení a vytvorení faktúry, vyberala zo zoznamu organizácií za ktorú ide faktúru zverejniť, tak sa stalo, že omylom preklepli a zverejnili pod inú organizáciu s rovnakým začiatkom názvu.

Pri zverejňovaní zmlúv si okrem dátumov Podpísanie zmluvy, Platnosť zmluvy, Účinnosť zmluvy vyberá z ponúkaného kalendára aj Dátum zverejnenia , ten sa potom zobrazuje pri zmluve na webe. Očakával by som že sa napevno vloží aktuálny kedy zmluvu naozaj publikuje a nie si ho ľubovolne vyberať z kalendára.
Tu by potom nebolo ťažké vymeniť zmluvu a publikovať ju znovu s pôvodným dátumom.

Ahoj Miro, akym sposobom idete obstarat SKIT za 400k?

Ahoj. Asi máš na mysli túto žltú časť:

Momentálne je stav taký, že aj toto môže dopadnúť ako VO, nič nie je ešte finálne, veci sa vyvíjajú, a my chceme aby bolo toho ako. Môže to dopadnúť že SKIT bude robiť ešte viac vecí, alebo nič.

Tá suma 400K je pre nás strop, aby sa dorobila do opensource portálu autentifikácia (predpokladám že sa využije spôsob akým sa OVMka teraz prihlasujú), vytvorí sa úložisko (lebo český portál je decentralizované riešenie kde dáta ostávajú na OVM), musí sa ešte zladiť ID-SK grafický design a musí sa napr. urobiť služba, ktorou sa teraz zapisujú dáta na portál.

K samotnému riešiteľovi. Medzi MIRRI a SKIT bola uzavretá rámcová dohoda (či je už momentálne platná to ešte neviem), ale plán je taký, že my oslovíme SKIT s konkrétnymi požiadavkami, a konkrétne nám niečo cez ňu dodajú. Napr. Architektúru rozšírenia, alebo neskôr aj nastavia túto autentifikáciu. Neplánujem to riešiť ako balík, že tu je 400K a dodajte nám za to všetko čo chceme.

Možný je ale aj scenár, že SKIT jednoducho nemá voľné kapacity, čo už bolo signalizované, ani na takéto dielčie výstupy, a tak pôjde aj toto do VO. Prípadne ďaľšie iné scenáre.

Dakujem za informacie. A je niekde dostupna ta ramcova dohoda? Lebo co ma prekvapilo je, ze cena MD je rovnaka, ako pri inych planovanych VO. Prebehla nejaka sutaz alebo ako je mozne overit hospodarnost takehoto zmluvneho vztahu? Dakujem

1 Like

Lebo na CRZ nic take nevidim, ale nasiel som tam tuto zmluvu na Studiu ustutocnitelnosti: 1151/2021 | Centrálny register zmlúv. To je asi najdrahsia studia, aku som videl (Out of topic).

1 Like

Zalozili/kupili si “molocha”, tak ho proste musia zivit. Inak ani sadzba 499E/MD nie je najlacnejsia (myslim, ze by sa dnes daju vysutazit lepsie ceny) … v Cesku (aj v EU v statnych projektoch) su dnes sadzby cca na urovni 400E/MD u sukromnych firiem (u statnej by mali byt este o nieco nizsie). nehovoriac o tom, ze su tam schvalene preddavky (80-100%), co sukromny subjekt ma u statu 0, z tohto uhla pohladu su znacne predrazeny (pocet MD nehodnotim), nech si kazdy urobi obraz sam (podla MIRRI setrime tazke miliony)

3 Likes

Rozumiem čo hovoríte, čo budem môcť sa budem snažiť zohľadniť.

Aby som ešte veci upresnil. Tamto je môj pracovný excel, a priznám sa že konkrétnym cenám som sa zatiaľ venoval len okrajovo. Celkovo vyzerá že ušetríme aj 1M, takže tu sa podľa mňa dá byť jemne k MIRRI trošku zhovievavejší. :slightly_smiling_face:

Ako som už spomínal, VO je pre mňa dosť nová téma, takže radšej to chcem takto komunikovať. Tá cena 460EUR/MD platí len pre prvé VO. Náš etalón pre nasadenie opensource data.gov.cz je MFF UK (ktoré ho vyrobilo a nasadilo pre MinV), dokopy 70000EUR.

Následne všade dole som použil ten istý M/D. Nie je to teda z rámcovky, ktorú som ešte presne nevidel, ak mám byť úprimný. Čiže tu sa to môže zmeniť. A asi aj zmení.

Každopádne ďakujem za pripomienky. Tie ďaľšie M/D pôjdu nižšie, to si ale ešte musím overiť, ako je to na trhu, nemám problém to znížiť.

Ja som nenarazal na to, ze cena je vysoka, ale na to, ze za tu cenu to vie asi dodat viacero subjektov na trhu a nie je potrebne to zadavat na priamo, ale vhodnejsia by bola spravodliva sutaz.

1 Like

Akurat VO by zrejme predlzilo vsetko o rok …

Ahojte

ešte raz ďakujeme Mirovi za zvolanie stretnutia a zdieľanie noviniek, na ktorých pracujete.

Čo sa týka nového portálu otvorených dát, plne sa stotožňujeme s odporúčaniami formulovanými v Analýzach zverejňovania datasetov ústredných orgánov štátnej správy vypracovaných Úradom splnomocnenca vlády SR pre rozvoj občianskej spoločnosti. Tieto problémy súčasného portálu by mali byť v novom portáli vyriešené.

Za najdôležitejšie považujeme:
• Automatizovaný a jednoduchý spôsob nahrávania datasetov na portál
• Pravidelné zverejňovanie informácií o fungovaní portálu (stiahnutia datasetov, žiadosti o sprístupnenie datasetu, atď.)
• Jednoduchá dostupnosť spätnej väzby pre používateľa portálu bez nutnosti použitia el. OP – najmä pridávanie aplikácií, hodnotenie datasetov, označenie obľúbených datasetov, prípadne komentovanie datasetov - ak tam tieto funkcie budú. V súčasnej verzii sú tam niektoré z nich ale je to zabité tým, že sa treba prihlásiť s OP, takže to takmer nikto nepoužíva.

Analýzy:

2 Likes

Co presne znamena tato veta? Aka ma byt uloha MFF UK v tom obstaravani?

Znamená to, že my v dátovke by sme si priali, aby si svoj vlastný opensource nasadil jeho autor, pretože je to aj z pohľadu nákladov najlepšie.

Ak to trochu viac vysvetlím:

Česká republika je míle pred nami čo sa týka otvorených údajov, pretože jednak majú lepšie nástroje (pár skutočne gemov opensourcov), legislatívu, infraštruktúru (Verejný dátový fond) a podporujú ňou stratégie EÚ v oblasti otvorených dát, interoperability, :innocent: rádovo lepšie ako my. Napr. pomer datasetov je hodne hovoriaci: (144K CZ) vs (2.5K SK).

Vďaka opensource vieme ušetriť peniaze aj úsilie. Pôvodne sa uvažovalo so 2.2M (nový vývoj), teraz sa bavíme o 70K (jadro portálu data.gov.cz, tj. harvestovanie, kvalita, dopytovací endpoint, dcat-ap-sk) + 400K (dorobenie autentifikácie, storage, služby pre ukladanie súboru a zosúladenie na ID-SK).

Čiže prirodzene uvažujeme, že najlepšie je, keď si opensource portál rozbehne sám svoj tvorca. Češi ho majú, ponúkajú, a pre nás je to príležitosť spolupracovať so špičkou v obore (MFF), ktorí veľmi úspešne ťahajú aj český egovernment. Portál vyvinuli a spravujú pre MinVČR.

Čiže, zvažovali sme rovno priame zadanie, čo by bolo najlepšie.

Bohužiaľ sme to vyhodnotili, že to nie je možné, pretože len tomu sa dá dať zákazka priamo, že to iný nevie vyrobiť. A tento portál hoc je jedinečný a niekto od nás by ho vyvíjal dlhé roky, aj tak by to nedal (zoberme si už len komponent linkedpipes, čo je jedným z jadier projektu).

Čiže náš plán je vyhlásiť VO na nasadenie portálu a držať si palce, že sa MFF prihlási, a že sa nenájde lepší riešiteľ. Samozrejme dopredu plánujeme zverejniť kritériá, aby aj vyhodnotenie bolo explicitné. Na druhej strane, prežijeme aj ak nevyhrajú, alebo sa neprihlásia. Podporovať české riešenia eEgove, najmä v oblasti interoperability a otvorených dát neprestaneme tak či onak.

Ak by si mal, alebo niekto iný nápad, lepší, tak ho prosím napíšte.

(edit: MFF UK znamená MFF Karlovej Univerzity v Prahe, nie MFF Univerzity Komenského v BA).