Denník NP OpenData 2.0

Pár aktuálnych infos:

Na nasledovnom obrázku môžete vidieť aktualizovaný stav komponentov OD2.0

VO1:

Toto prvé obstarávanie pôjde vonku v nabližších dňoch.
Ešte sa formálne finalizujú súvisiace dokumenty, OPZ, požiadavky, kritériá
https://drive.google.com/drive/u/1/folders/1_95MWwPeoQ52PmsXzeRcJ1LsX1xPmxtx

Keby som to mal veľmi zjednodušiť, prvým produktom je nová databáza metadát podľa DCAT-AP-SK, prístupná cez SPARQL Endpoint, tj. dotazovacie rozhranie.

Rozhranie bude vlastne oknom do nového systému, do novej databázy a nového dataprocesingu (harvestovanie, meranie kvality, počítanie štatistiky). Pomoc neho bude možné zadávať ľubovoľné dopyty na metadáta a žiadať aj formát odpovede. Súčasťou predpripravených dotazov bude množina systémových dotazov - tj. celkové štatistiky a merania kvality

Začali sme robiť aj návrh GUI, čiže po prvom VO to bude vyzerať nejako takto:

Rámcová zmluva so SKIT:

Dorobenie autentifikácie, úložiska, služby pre ukladanie súboru a vytvorenie webových stránok pre portál v súlade s ID-SK plánujeme robiť s SKITom.
Samozrejme snažíme sa minimalizovať riziko ich nedostupnosti, takže čo vieme spraviť, spravíme v dátovke. Na druhej strane, s chalanmi so SKITu čo som ja mal možnosť robiť na príprave OD2.0, by som rád robil opäť. Mrzí ma celá tá debata o regulérnosti, resp. neregulérnosti SKIT, my to nemáme ambíciu v rámci OD2.0 rozhodnúť.

Tak či onak, portál podľa SK-ID bude vyzerať nejako takto. Ešte musíme overiť či je toto posledná verzia, alebo nie. Prekreslíme.

VO2:

Súčasný plán je, že ostatné veci pôjdu do druhého veľkého obstarávania, pričom na jednotlivé komponenty sa budú môcť prihlásiť samostní uchádzači.
Za najdôležitejšie súčasti tejto fázy považujeme V2.3 Komunita otvorené údaje, a V2.2 Publikačné minimum. A bohužiaľ tu sme veľmi na začiatku. A potrebujeme tu veľkú pomoc.
Musíme sa prioritne dohodnúť na Katalógu požiadaviek.

https://drive.google.com/drive/u/1/folders/1WaYUc7h9X4Luqh2M8aD8fvV4Ch6JR9gx
https://drive.google.com/drive/u/1/folders/1NhUdqZKfK3LIH0II3nBWIkDapW8gU-m2

Náš dátovkový cieľ s portálom je jasný. Priorita je základný portál ako je to v iných krajinách. Komunitnú nádstavbu, resp. centrálne komponenty pre publikačné minimum potrebujeme rozhodne viac rozbehnúť.

VO3:

Neviem či sme toto vôbec ešte komunikovali, ale náš projekt OpenData bol vybratý ako vhodný prvý projekt pre tzv. Komerčnú časť vládneho cloudu, čo by mal byť nejaký poskytovaný cloud v spolupráci s komerčným subjetom. Na toto sa bude robiť tiež obstarávanie. Podklady sa pripravujú, posnažíme sa ich zverejniť čím skôr.

VO4:

Jediná komernčná licencia softvéru, ak vôbec, bude databáza pre Národný katalóg otvorených dát, čo je RDFDatabáza. Česi používajú Virtuoso, čo bolo plánované aj pre slovenský OD1.0. Cena je 1000USD/ROK, pre prvotný výkon. Česi stále fungujú na opendata verzii.

My plánujeme používať GraphDB. Tiež na opendata verzii. Samozrejme plánujeme dokumentovať porovnanie GraphDB, Virtuoso a RDF4J-DB.
GraphDB je špička v obore.

VO5:

Toto je základná publicita. Plagát, prezentácia …

Ahojte,

pracujeme na novom metodickom materiály:

Katalogizácia OpenAPI na portáli data.gov.sk

https://wiki.vicepremier.gov.sk/pages/viewpage.action?pageId=77333258

pretože hoc už existuje množstvo otvorených údajov prístupných cez OpenAPI, často sa stáva ,že sú na centrálnom portály zle skatalogizované, ako napr. ITMS2014+

alebo ich katalogizácia úplne chýba, napr. ako sme sa nedávno rozprávali o opendátach finančnej správy https://opendata.financnasprava.sk/ .

Oba prípady chceme riešiť čo v najširšiom zábere. Prioritou Národného katalógu otvorených dát NKOD je čo najpresnejší zoznam všetkých existujúcich datasetov. V rámci projektu OD2.0 máme v pláne opraviť súčasný katalóg ako sa len bude dať stihnúť.

Dôležité pravidlo pre OpenAPI je, že čo dátová služba vracajúca dáta, to dataset.
Na nasledovnom obrázku môžete vidieť nanovo nadefinovnané opendata pre ITMS2014+ ako samostatne datasety:

link: Datasety -data.gov.sk

2 Likes

Ahojte. Takže súťaž na NKOD, čo je prvý komponent OD2.0, je už od pekného včerajšieho dátumu 21.12. vonku:

Prihlásiť sa dá do 14.1.2022, financovanie je do 70K. Kritériá sú cena a dvaja experti v oblasti otvorených prepojených dát v pomere 30%-35%-35%.

Predmet projektu je Národný katalóg otvorených dát + špecifický dátový procesing (harvestovanie, meranie kvality a štatistiky) + SPARQL Endpoint. Táto časť predstavuje základý dátový backend.

Z pohľadu celého projektu je to ten prvý riadok. (modré je VO, žlté analýza a návrh, oranžová je testovanie, zelená nasadenie).

PS: Ešte by som rád dodal, že toto je prvé VO ktoré sme robili: Ja + Tibor Jedinák (PM). Samozrejme bez skvelého supportu (Petra Nemčková, @Milan1979 ) + bez našich mnohých kolegov by sme to nedali dokopy. Chcem sa im za to všetkým poďakovať. Čo by som ešte rád povedal je, že programovanie je určite krajšie, ako príprava projektu. :slightly_smiling_face: Na druhej strane je to data.gov.sk a to je veľká vec.

Ahojte,

v rámci projektu OD2.0 počítame stým, že riešenie pôjde do komerčného cloudu (resp. do tzv. verejnej časti vládneho cloudu) pretože projekt OD2.0 bol identifikovaný ako vhodný na overenie celého životného cyklu obstarania a prevádzky v taktomto cloude (neobsahuje citlivé dáta). V spolupráci s našimimi architektmi na MIRRI pripravujeme na to súťažné podklady, a budeme radi ak nám dáte k tomu OPZtku pripomienky:

Posledná otvorená otázka čo nám zostáva je, či bude portál určený na výkon verejnej moci (ako povedzme v česku), alebo to bude len neaktívne odložisko otvorených údajov.

My samozrejme opendatisti chceme, aby portál plnil funkciu tak ako v ČR, že opendata sú aktívne, živé garantované údaje by default, a tiež chceme dokonvergovať k podobnému stavu ako v ČR, kde platí, že ak si ISVS vymieňajú údaje ktoré nie sú chránené, tak najskôr musia byť zverejnené ako opendata (Verejný datový fond), a na tieto služby sa môže druhý systém naintegrovať.

Problém ale u nás nastáva s tým, že na prevádzkovanie systému na výkon verejnej moci, môžu byť použité len služby, ktoré tvoria vládny cloud – sú zapísané v katalógu cloud služieb Vládny cloud SR - Vládny cloud, aktuality, informácie, dokumentácia, ...., a tým by sa zúžil počet súťažiacich. V aktuálne verzií katalógu sú partneri Azure, IBM, Oracle a SVK poskytovatelia. Chýbajú tam partneri napríklad pre AWS, Google. Samozrejme to nás neteší, ale tiež chceme opendata niekam posunúť. Možno že by mohlo byť riešenie, že do konca projektu (2023), by to nemuselo byť v režime výkonu verejnej funkcie, ale až potom. Aký máte na to plís názor? Ďakujeme.

jeden pozmeňujuci navrh … :slight_smile:

Ak si dobre pamatam veci z ostanej prezentacie na Open Data CZ konferencii (2021/11):

https://twitter.com/PHanecak/status/1456538233521774614

tak “garancie” pre data v G2G rezime (u Teba popisane ako “pre vykon verejnej moci”) aj v CR davaju na zaklade toho, ze cela komunikacia pojde medzi gov servermi cez gov siet. Z toho pohladu je ta SK poziadavka na “vladny cloud” vlastne o tom istom.

Ja osobne prisudzujem vacsiu prioritu poriadnym datam a teda ak si mam vybrat medzi:

  1. data v provotriednej kvalite, lebo sa tie iste pouzivaju pre vykon verejnej moci
  2. data v druhotriednej kvalite, ale ako pilot verejneho cloud-u

tak kedze som opendatista (nie cloudista), tak preferujem moznost 1 (a je mi kvazi jedno, kde je server).

Ak by to nasledne malo komplikovat dodavku (ze by cena alebo cas dodavky mali byt nasobne vacsie nez pri pouziti verejneho cloudu), tak by to bol vynikajuci vstup pre MIRRI Pracovná skupina K9.7 Vládny cloud , kde by prevadzkovatel(-ia) a dodavatel(-ia) vlaneho cloudu mali ist na kobercek a vysvetlit, ze za co presne uctuju mastne priplatky resp. preco su taky pomaly.

2 Likes

Ahojte, jedna skvelá správa! :slightly_smiling_face:

je mi cťou oznámiť, že sme mohli vyhlásiť víťaza prvého verejného obstarávania pre projekt OD2.0, dodanie jadra nového opendatového portálu: OD2.0-NKOD Národný katalóg otvorených dát (databáza metadát, metadátový procesor, dopytovací endpoint, meranie kvality metadát).
Túto podlimitnú zákazku (do 70000E) bude realizovať Matematicko-fyzikálna fakulta Karlovej univerzity v Prahe.

Inými slovami, jadro nového data.gov.sk bude založené na architektúre data.gov.cz

Do súťaže sa nám prihlásil iba jeden súťažiaci. Aby bolo možné stanoviť cenu zakázky, oslovili sme aj Slovenskú technickú univerzitu. Po vyhodnotení vyhralo České riešenie, pretože MFF má viac praktických skúseností, nakoľko svoje riešenie reálne prevádzkuje pre Ministerstvo vnútra ČR.
Všetky potrebné linky na dokumenty spojené s VO pripojím čoskoro.

:point_right: Pre dokončenie celého projektu bude vyhlásených ešte niekoľko ďaľších verejných obstarávaní. Na rozšírenie portálu pre komunitu, publikačné minimum, govgit a tri experimentálne metódy. Samotný frontend, autentifikáciu a (čo najmenšie - prechodné) úložisko súborov - to počítame že urobí SKIT. Záložný plán je, že aj toto pôjde do verejného obstarávania. A samozrejme, množstvo vecí plánujeme urobiť u nás v dátovke. V týchto ďaľších VO očakávame viac súťažiacich, nakoľko jednotlivé predmety (technológie) budú výrazne štandardnejšie. (Katalógy požiadaviek zverejníme čoskoro - a bude ich možné pripomienkovať).

:point_right: Zmluva s MFF ešte podpísaná nie je.

Veríme ale, že sa nám ju podpísať podarí. Urobili sme naozaj všetko čo bolo v našich silách, čo sme vedeli, aby sme zabezpečili maximálnu kvalitu projektu.
Je nám jasné, že otvorené údaje sú kľúčovou nádejou pre zlepšenie slovenska, a že nemôžeme plyvať šancami.

6 Likes

mňa by hlavne zaujímalo, kedy sa na MIRRI začalo uvažovať tak centralisticky.
ešte aj pôvodné decentralizované riešenia napr. referenčných registrov sa zbastlilo dohromady v CSRÚ, teraz máme MUKP, ale aj centr. integračnú platformu a voila, budú aj centrálne opendata. načo je to dobré? miesto toho, aby ste tam zadefinovali použiteľné štandardy, vybíjate sa v budovaní centralizovaných riešení. opendata FRSR sa postavili za smiešne peniaze. keby každý rezort také niečo za takú cenu vyrobil, tak nám stačí obyčajný katalóg opendata datasetov v rôznych opendata portáloch a nie takéto centralistické veľdielo, ktoré môže dopadnúť presne tak ako prvé data.gov.sk.

3 Likes

Toto je práve vhodná ukážka toho či decentralizácia šetrí peniaze. Schválne koľko stál open data portál Bratislavy, fssr a ďalších vs centrálny katalóg? Taktiež: pre konzumentov je extrémne naprd, že majú loziť po x webikoch a hľadať kde tie dáta vlastne sú. Schválne… Kto viete kde nájst open data zo živnostenského registra?

2 Likes

tak hadam na živnostenskom registri :slight_smile: Ale kopeme do otvorených dverí. Nový portál open data je presne na to určený. Na katalogizaciu datasetov umiestenených na portáloch OVM. Akurát bude vyžadovať, aby tie portály mali príslušné endpointy a opendata portál ich bude harvestovať kvoli aktualizáciám metaúdajov. celý portál je do 70k , co mi nepríde nijako moc prehnané ak tam bude aj ten harvester.

1 Like

Skúsim odpovedať postupne:

Riešenie OD2.0 určite nie je centralizované, naopak, snažíme sa ho urobiť decentralizované maximálne ako sa dá. Bohužiaľ nedokážeme okamžite vyriešiť čo s datasetmi, ktoré sa v súčasnosti denne nahrávajú na data.gov.sk (register adries, rôzne vestníky, atď …). Určite to nechceme jednoducho zakázať nech si poskytovatelia poradia samy, ale budeme hľadať cestu ako zmeniť miesto publikovania a až postupne dôjsť k čistej decentralizácii. Inak v rámci centralizácie sa často objavuje názor, že niektoré OVMka, malé obce, nemajú svoj priestor, tak aby niekde tie opendata dat vedeli, tak sa upload súborov do centra má zabezpečovať. Ale i toto chceme vyriešiť cez decentralizáciou, len sa musíme dohodnúť ako.

Čiže tu si asi rozmumieme a som veľmi rád, že toto hneď vidíme rovnako.

Decentralizované otvorené dáta sú určite našou prioritiou, a je to kvoli viacerým aspektom: dôveryhodnosť, aktuálnosť dát, použiteľnosť aj na dátovú integráciu medzi OVM: portál otvorených dát nie je backup server, kde sa majú pravidelne fyzicky kopírovať dáta z jedného systému (nejakého OVMka) do druhého systému (garant MIRRI), ale dáta majú byť živé, dostupné ideálne cez API priamo v systéme, ktorý je v správe daného OVM.

Inak, nový portál bude založený na jadre data.gov.cz, a ten je decentralizovaný.

Čo sa týka vizie, čo s otvorenými údajmi, tak tu chceme rozhodne konvergovať k princípom opendata v EÚ, tj. ku katalozicácii opendatových endpointov, aby boli práve opendata živé a poskytované vládnou autoritou. Napr. v takej českej republiky sú opendata jedným z hlavných pilierov eGovernmentu, pretože ak si napr. OVMka vymieňajú dáta, ktoré nemajú povahu chránený, tak je to povinne nutné realizovať cez OpenData.
https://archi.gov.cz/nap:verejny_datovy_fond

Druhá ale absolútne kľúčová vec je katalogizovať opendata na centrálnom portáli, aby ich bolo vôbec možné nájsť. Keď sa napr. rozprávame o opendátach finačnej správy, tieto dáta porušujú štandardy sprístupnenia (Vyhláška 78/2020), práve ten bod, že sa metadáta majú skatalogizovať na centrálnom portáli. Písal som to v komunikácii vyššie. Čiže čo ešte chýba finančnej správe je, aby tie opendata na centrálnom portáli vyzerali ako ITMS:
https://data.gov.sk/dataset?q=itms

Tj. čo služba vracajúca dáta, to dataset.

Aby bolo jasné, vážime sa každé aktivity ktoré obohacujú množinu otvorených údajov na Slovensku. A iste, treba hľadať čo najefektívnejšie nepredražené riešenia.
Musím ale povedať, že centrálny portál je trošku iná šírka funkcionality, ako povedzme množina OpenDataAPI nejakého portálu, či už ITMS, alebo finančnej správy.
Centrálny portál je aj o manažmentne rôznych poskytovateľov, a okrem správnej formy metadát (DCAT-AP), by mal vedieť aj merať ich kvalitu
https://data.europa.eu/mqa/?locale=en

a samozrejme aj harvestovať (automatizovane katalogizovať) lokálne katalógy (opendatové portály), resp. poskytnúť dopytovací endpoint pre získanie želaných metadát (vlastné query). Nič takéto opendata finančnej správy nemá.

Čiže prezentácie typu, aha my sme urobili vlastné riešenie za máličko peňazí a porovnávať to s centrálnym portálom nie je podľa mňa úplne fér, keď to takto jemne môžem povedať. :innocent:

Schválené peniaze na projekt (cca 2.8mill) chceme využiť čo najefektívnejšie. Túto prvú časť urobia najväčší machri, ale tým celé riešenie ešte neskončí.
Potrebujeme urobiť autentfikáciu a správu používateľov, pretože toto český NKOD nerieši takmer vôbec (myslím že je to len cez GitHub). Potrebujeme urobiť nové webstránky, pretože musíme dodržať idks.gov.sk - toto ale veľmi podporujeme, pretože to uľahčí diskusie ako má web vyzerať. A rozšírime portál aj pre OD komuninitu, + podporíme publikačné minimumim … A samozrejme musíme ponechať aspoň minimálne úložisko a služby pre ukladanie kvoli zachovaniu kompaktibility (pokiaľ sa nám to v čase nepodarí vyriešiť).

Čoskoro zverejníme katalógy požiadaviek na jednotlivé časti, budeme radi pripomienkam.

Na záver: Projekt OD2.0 (hlavne teda portál) chceme postaviť na princípoch zverejňovania a používania opendát ako v EÚ. Tu som presvedčený, že ideme tak dobre ako len dá.
Čo sa týka CSRÚ, tu musím povedať že hľadáme ešte správny modus operandi, pretože samozrejme chceme sa vyhnúť tomu, že nám CSRÚ bude na periodických bázach nahrávať súbory na data.gov.sk
Pekný príklad je napr. CRZ. Aj podľa novely infozákona, z transpozície opendata jasne vyplýva, že je nutné aby sa dali dáta stiahnuť hromadne stiahnúť cez API. Čiže keď napr. teraz komunikujeme požiadavky, ako sa má rozíšiť CRZ v oblasti opendát, tak to určite nie je o nahrávaní datasetov, ale o pridaní tlačítka EXPORT. A my do katalógu potrebujeme skatalogizovať službu, ktoré dané tlačítko volá, bez žiadneho nahrávania.

Pripravujeme aktualizovať Strategickú opendata prioritu, a tam definovať všetky princípy. Čoskoro zavesíme tento dokument na pripomienkovanie aj sem.

1 Like

A co by si tam nasiel? Nic!

A ked hladas zakladne informacie k pravnickym osobam, tak kde budes hladat? ZRSR/ORSR - vnutro? spravodlivost? alebo statisticky urad? alebo financna sprava? Ci ministerstvo financii (nejake datacentrum)? Spravna odpoved: Vsetky!

A odkial mas vlastne vediet, ze tieto institucie a ich webiky existuju a ako maju podelene data? No proste si staci precitat zbierku zakonov! Super, ze? Preto treba centralizovat minimalne katalog.

2 Likes

ved ked nic nenájdem na prvý pokus, idem na data.gov.sk a ta is to najdem v katalógu.
Ved sme popisovali budúci stav, ku ktorému sa MIRRI snazi dopracovat. Nie aktuálny stav, ktorý je dôsledkom OPIS projektov … Ja viem ze teraz tam nic nenajdem

Áno, máš pravdu. Len drobná úprava. Ja len verím, že v budúcnosti,

  1. najskôr pôjdeš na data.gov.sk :slightly_smiling_face:, alebo si search urobiš cez dopytovací endpoint.
  2. a ak by sa v katalógu nič nenašlo, tak potom sa až pôjde prehľadávať webový svet daného OVMka. A ak sa nájde niečo tam, tak sa toto sa nahlási ako podnet na zverejňovanie, a neskatalogizovaný dataset za zapíše do NKODu.

staré zvyky … :slight_smile:
Ohýbaj ma mamko, …

1 Like

a ešte si treba uvedomiť že z pohľadu verejnosti (UX ?) žiadne OpenData neexistujú.
Sú len DATA = informácie, ktopré chce Public používateľ nájsť, prípadne stiahnuť.
Takže na žiaden katalóg primárne sám nepôjde. Jedine ked ho tam pošle Google, (resp. ortodoxných microsofťákov BING)… Ak nebude jeho prvý krok googlenie (myslí si že vie kam má pozrieť - napriklad chce epidemiologické data - idem na UVZ …), tak pôjde na protál príslušného orgánu ak vie ktorého. Samozrejme profíci, čo už tam nie sú prvýkrat, tak zase postupujú inak a tí môže primárne ísť na data.gov.sk.

FRSR opendata su tie smiesne grafy v dizajne z 90.tych rokov?
Otvorene API nikde, dokumentacia ziadna alebo slaba.

VEd to predsa vsetci pisu, ze katalog musi byt centralizovany, to nikto nikdy snad nerozporoval

Dokonca to máme aj povinne:

zaevidovanie datasetu s otvorenými údajmi v centrálnom katalógu otvorených údajov „data.gov.sk“,

Schválne skúsime, že koľko ich tam je napríklad z fssr? Datasety -data.gov.sk

Keď už sa tu teda volá po rozumných štandardoch a centralizaciu katalógu nikto nerozporuje.

5 Likes

ak sa bavíme o centrálnom katalógu, som za.
cena 2.8M mi na katalóg nepríde malá, ale snáď keď si to celé prečítam, pochopím.

a na margo toho data.gov.sk - v papieroch je napísané kadečo. predstava, že postavím systém a napíšem do vyhlášky nejaké povinnosti a všetci to budú dodržiavať, je utopická. tým skôr, že data.gov.sk je v zásade od začiatku mŕtvy projekt, o ktorý sa nikto nestaral. mimochodom, obsahuje aj modul na správy tautológií, v ktorom svojho času (rok 2018) bola presne 1 tautológia v PROD prostredí - tá skúšobná. niekedy vtedy vypršala licencia, takže asi nikdy ďalšia nepribudla. a nebol to lacný produkt.

centrálny katalóg musí mať svojho správcu, ktorý bude naháňať kvalitu dát a dostupnosť zdrojov. ktorý skrátka bude žiť pre otvorené dáta a pre to, aby boli všetky správne zaradené a dostupné. potom to bude mať zmysel.

1 Like