Denník NP OpenData 2.0

ano. ok, vdaka.

Zdravim komunitu. Snad to nebude (velky) offtopic, ale chcem sa spytat, Narodny katalog otvorenych dat je pre statnu spravu povinny a pre uzemnu samospravu dobrovolny? Zaujima ma hlavne uzemna samosprava.

V Národný katalóg otvorených dát vidime 105 poskytovatelov dat, ale vacsina su ministerstva a urady. Z uzemnej samospravy tam su:

Nitriansky samosprávny kraj (datasetov: 4)
Prešovský samosprávny kraj (datasetov: 25)
Trnavský samosprávny kraj (datasetov: 1)

Mesto Banská Bystrica (OVM) (datasetov: 39)
Mesto Kežmarok (OVM) (datasetov: 2)
Mesto Nové Mesto nad Váhom (OVM) (datasetov: 12)
Mesto Prešov (datasetov: 58)
Mesto Trnava (datasetov: 5)
Mesto Tvrdošín (OVM) (datasetov: 19)
Mesto Vranov nad Topľou (OVM) (datasetov: 6)
Mesto Zvolen (datasetov: 24)

Obec Cífer (datasetov: 21)
Obec Horné Strháre (datasetov: 2)
Obec Kolačkov (datasetov: 1)

Dalej su tam Levice, Levoca, Liptovsky Mikulas a Zlate Moravce s 0 datasetmi . Toto znamena co? Ze sa planuju pridat alebo naopak si to rozmysleli a datasety zrusili?

Preco v katalogu nie je napriklad mesto Bratislava, ktore ma zverejnene datasety na https://opendata.bratislava.sk ? Alebo mesto Kosice https://opendata.kosice.sk ?

Zdravím, dobrá otázka. :+1:

Do prvého polroka 2022 boli otvorené dáta upravené najmä vo vyhláške 78/2020, kde nebolo presne riešené, kto musí/nemusí zverejňovať otvorené údaje.
Od druhého polroka 2022 sa nám (Dátovej kancelárii) v spolupráci s Ministerstvom Spravodlivosti podarilo dostať otvorené údaje do infozákona!, na čo sa priznám sme špeciálne hrdí. Je to podľa Českej republiky, ktorú v podstate v otvorených dátach kopírujeme. Byť ulra-inovatívni a unikátni je momentálne nižšia priorita, najdôležitejšia je povinná jazda dobiehania štandardných a odporučených riešení v rámci EÚ. (Napr. prial by som si, aby sme podobne riešili celý egov, napr. dobudovaním Systému základných registrov ako v ČR, čím som presvedčený by sa okamžite pohol celý egov, ale toto je na dlhšie, o tom ale niekedy inokedy).

Späť ale k otázke: Vďaka vloženiu opendát do infozákona a prepojenia s povinnými osobami, platí povinosť publikovať opendata v NKODe pre všetky povinné osoby, ktorými sú: štátne orgány, obce, vyššie územné celky ako aj tie právnické osoby a fyzické osoby, ktorým zákon zveruje právomoc rozhodovať o právach a povinnostiach fyzických osôb alebo právnických osôb v oblasti verejnej správy, a to iba v rozsahu tejto ich rozhodovacej činnosti.

:point_right: Teda povinnosť sprístupniť (katalogizovať) opendata cez NKOD platí aj pre samosprávu.

V súvislosti s novým portálom došlo k zmene spôsobu automatizovanej publikácie otvorených údajov z používania API CKANU, na harvestovanie (automatizované katalogizovanie) lokálnych katalógov,

a poskytovalia. ktorých si uviedol už vytvorený lokálny katalóg (LKOD), avšak ešte sa pracuje na odstránení posledných chýb, ako to tak môžem povedať. V niektorých prípadoch ide o implementovanie zmien, ktoré súvisia s novou verziou štandardu pre metadáta otvorených údajov DCAT-AP-SK-2.1.1.

Túto zmenu budú musieť spraviť aj poskytovatelia OpenDát cez CKAN API. NIe je to nič obrovské, nejaké úsilie s tým spojené ale je.

Sledovať progres implementácie je možné tu:

Inak tieto tasky sú jedny z najkrajších, aké nadšenec technológií sémantikého webu mať. :slightly_smiling_face: Verím že to do mesiaca všetko rozbehneme, minimálne v tomto rozsahu, pretože postupne si LKODy implementujú ďaľší poskytovatelia.

Taktiež dobrá otázka.

Ako som uviedol vyššie, povinnosť katalogizovať otvorené údaje v NKODe platí pre všetky povinné osoby, ktoré tam nie sú dostupné porušujú zákon.

Naša momentálna filozofia riešenia tohto problému nie je založená na tvrdom vymáhaní, ale skôr pomoci a podpore. Možno aj na to príde raz čas, teraz je ale takýto mód.

Avšak dodám k tomu dôležitý fakt: MIRRI cez dopytové výzvy poskytli finančné prostriedky na opendata viacerým subjektom v rámci ukončeného programového obdobia, a tam samozrejme už len podporný postup nepredpokladáme. Momentálne ešte nemáme vytvorený zoznam tých poskytovateľov, ktorí to sú, avšak verím že v dohľadnej dobe to spravíme.

Čo sa týka konkrétne Bratislavy. Pokiaľ si dobre pamätám, Bratislava sa do spomenutej realizovanej dopytovej výzvy nedostala, čo sme ako opendatový tím samozrejme namietali a snažili sme sa to zmeniť kým sa dalo v rámci pripomienkovania, avšak nepodarilo sa nám túto výzvu už zmeniť. Pre nás je teda katalogizácia portálu BA v podpornom móde, sme pripravení im pomôcť maximálne (ako aj ostatným poskytovateľom). Momentálne kvoli novému portálu sme z pohľadu kapacíť absolútne neschopní spraviť nič. Verím ale, že sa to zmení. Keďže opendata portál je rovnaký ako opendata finančnej správy, a ten sa už harvestuje, je veľká nádej že sa to v dohľadnom čase aj podarí.

V tejto súvislosti ešte pre záznam do denníka doplním,. že nová vyzva ktorá sa pripravovala nebola přespříliš opendatam naklonená (poviem to takto), čo sme samozrejme opäť namietali. Potom sa stali dve veci: prvá, z pohľadu opendát absolútne skvelá, tj. bola vymenovaná úradnícka vláda s jej vedením, ktorá akceptovala naše pripomienky k výzve a dopytovka sa zastavila a začala sa prerábať. Potom sa stala vec druhá, to boli výsledky volieb. V najlepšiom z možných svetov to znamená oddialenie dokončenia dopytovej výzvy, ktorá podporí poskyvateľov tak, aby si mohli plniť svoju zákonnú povinnosť publikovať otvorené údaje. :pray:

2 Likes

@liska výborne že si otvoril tému OpenData v projektoch. Prosím na to plánované najbližšie stretnutie PS zaradiť prezentáciu otvorených údajov vytvorených v rámci projektu “Dátová integrácia: sprístupnenie údajovej základne VS vrátane otvorených údajov prostredníctvom platformy dátovej integrácie”, ktorý to má teda priamo v názve, a keďže čerpal peniaze z časti OPII pre OpenData, bola to jedna z jeho primárnych úloh podľa projektovej dokumentácie.

1 Like

Ahoj. Čo sa týka projektu DI a otvorených dát. Naša dohoda medzi projektmi OpenData a DI (ktorú som tu už niekde dávnejšie aj zverejnil) bola taká, že pokiaľ sú už otvorené údaje zverejnené ich vlastníkom, či už vo forme súborov alebo niekde cez API, tak sa do Národného katalógu rovno katalogizujú tieto zdroje a nedochádza k duplicitnému zverejneniu tých istých údajov. Tento princíp je podľa mňa správny a maximálne zohľadňuje hospodárnosť, resp. efektívne nakladanie verejných prostriedkov. My sme takto vypustili z projektu OD2.0 blockchain.

Čo sa ešte týka opendát DI. Myslím, že filozofia bola okrem hore uvedeného pravidla - existujúce existujú, že prínos by mohol byť pre tie OVMka, ktoré nemajú opendáta ale sú už zapojené v DI. Priznám sa, že o takomto type otvorených údajoch katalogizovaných na data.slovensko.sk ale info nemám.

@liska ako sa dá prosím zistiť, kedy bola nejaká distribúcia (čiže konkrétny súbor) zverejnená?
Príklad: Nases / Zoznam schránok aktivovaných na doručovanie
https://data.slovensko.sk/datasety/55de1b2f-d1bc-4f0b-9b09-b9bd9a439670
nevidím žiadne atribúty o dátume platnosti, preto by sa dalo zachytiť aspoň dátumu zverejnenia. Je to niekde nájditeľné?

S NASESom spoločne riešime, ako si majú dať do poriadku ich datasety, prosím o strpenie, ešte to nemajú hotové. Konkrétne v tomto prípade je to nesprávna katalogizácia distribúcií. Majú to byť samostatné datasety so svojimi metadátami a to najmä časové pokrytie od, časové pokrytie do (a pomocne aj dátum vytvorenia, dátum modifikácie). Platí, že distribúcie sa môžu líšiť len formátom, nie časovým, alebo územným pokrytím. Náasledne ich automaticky zosortuje aj portál, aj sa to bude dať získať cez API.

Ako to má byť spravné správne je možné vidieť na datasetoch Úradu dohľadu nad zdravotnou starostlivosťou, ked napr. počty poistencou sú katalozované ako samostatné datasety so správnymi metadátami, navyše logicky zoskupné do dátovej série. Viď:

https://data.slovensko.sk/datasety/10d2cbf2-4f7b-4e51-bfed-64d50445503c

Idem sa im aj hneď ozvať, ako sa im darí.

Ok, čiže dátum zverejnenia sa zrejme zistiť nedá…

V tomto prípade sa naozaj nedá, pretože neevidujeme v NKOD katalógu dátum vytvorenia a dátum modifikácie pre distribúcie, ale len pre datasety, pretože distribúcie musia byť rovnaké svojim obsahom, iné môžu byť len formátom.

Na starom portáli tieto informácie boli evidované aj pre distribúciu, avšak skutočné časové pokrytie datasetu chýbalo. My sme počas migrácie mali zoznam datasetov, o ktorých sme vedeli, že boli zle skatalogizované distribúcie ako datasety, a z takých datasetov sme generovalidátové série datasetov, ktoré dostali dátum vytvorenia a dátum modifikácie práve z týchto distribúcii. To môžeš napr. vidieť pri tejto dátovej sérii, ktorá bola vygenerovaná z jedného datatasetu:
https://data.slovensko.sk/datasety/bf4cfad9-4bfc-4975-9443-046debaaf7a7
kde sa preniesli tie údaje z distribúcií do datasetov.

Každopádne, dať do poradku tieto 4 distribúcie do rovnakého tvaru a raz a navždy budú metadáta v poriadku je otázka na pár minút. Verím že sa to čoskoro podarí.

Cez SPARQL Endpoint apoň viemn zistiť, že dátum poslednej modifikácie datasetu je: 2024-03-18T13:53:56Z. Tieto metadáta budú zachvíľu zobrazené aj na portáli, v rámci najnovšieho updatu.

Správne riešenie je nasledovné:

  1. dataset sa ponechá ako je (URI sa nezmení), ale vymažú sa jeho distribúcie. Dataset sa zmení na dátovú sériu. ktorá bude najvyššia v hierarchii.
  2. Kedže sú tu dve rozličné veci, a to schránky pre PO a FO, tak sa urobia nové dve dátové série, opäť bez distribúcii, a ich nadradená dátová séria je tá vytvorená v bode 1,
  3. Pre každú časovú verziu sa vytvorí nový dataset, kde budú správne dátumy pokrytia od: 2018-03-28 do 2024-03-20, a nahrá sa tam formát v XLSX a CSV, potom sa vytvorí nový dataset s časovým pokrytím 2018-03-28 do 2024-03-21, a podobne (teraz presne neviem aká je periodicita, asi mesačná), a toto bude všetko súčasťou danej série nepomiešane.

Strojovo sa bude dať krásne vyberať najnovšia verzia datasetu či už pre PO alebo FO.

1 Like

Pribudla chyba na Národný katalóg otvorených dát
Predtým Dalšie datasety z tejto série boli zoradené nové hore a staré dole. Teraz sú na začiatku 2019 a dole prestalo fungovať stránkovanie.

Ďakujem, vidím checknem. Ospravedlňujem sa, ešte prebiehajú zmeny v rámci dátových sérií, verím že to čoskoro bude OK.

Mno, takže sme to pozerali a ono to chyba nie je. Stránkovanie už funguje, tam bol nejaký problém, podstatné je ale zoradenie. Momentáne sa zoraďuje podľa dátumu modifikácie, pretože datasety ešte nejamú nastavené správne metadáta, a to je časové pokrytie datasetu od - do. Tu je pekne vidieť, že administratívne metadáta sú iné ako reálne časové pokrytie.

Naše dočasné riešenie bude zoradenie podľa dátumu vytvorenia, čo zase môže robiť problém v inom zoradaní, keď niekto pridá najskôr novší dataset, až potom starší, ten bude mať s tým zasa iný problém. Čiže ideáne je toto umožniť umožniť si vybrať, podľa čoho sa zoradí. Toto ale bude chvľu trvať implementovať, a už máme posledné čl-hod v rámci SLA. Niečo ale vymyslíme.

Každopádne, ak to chcete na strojové spracovanie, tak už opustite nejaký crawler, a pošlite tento SPARQL dopyt:

Zoradenie podľa dátumu vytvorenia

PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcat: <http://www.w3.org/ns/dcat#>
SELECT *
WHERE {
   <https://data.gov.sk/set/6a81933d-2871-46b9-a26e-8ca980f83e99> dct:hasPart ?dataset .
  ?dataset dcat:distribution ?distribution .
  ?dataset dct:issued ?issued .
  ?dataset dct:modified ?modified .
  ?dataset dcat:distribution ?distribution .
  ?distribution dcat:downloadURL ?downloadURL .
} order by desc(?issued)

po encodnuti dotazom (da sa vytiahnut z gui sparql endpointu data.slovensko.sk po odoslaní):
https://data.slovensko.sk/api/sparql?query=PREFIX%20dct%3A%20<http%3A%2F%2Fpurl.org%2Fdc%2Fterms%2F> PREFIX%20dcat%3A%20<http%3A%2F%2Fwww.w3.org%2Fns%2Fdcat%23> SELECT%20* WHERE%20{ %20%20%20<https%3A%2F%2Fdata.gov.sk%2Fset%2F6a81933d-2871-46b9-a26e-8ca980f83e99>%20dct%3AhasPart%20%3Fdataset%20. %20%20%3Fdataset%20dcat%3Adistribution%20%3Fdistribution%20. %20%20%3Fdataset%20dct%3Aissued%20%3Fissued%20. %20%20%3Fdataset%20dct%3Amodified%20%3Fmodified%20. %20%20%3Fdataset%20dcat%3Adistribution%20%3Fdistribution%20. %20%20%3Fdistribution%20dcat%3AdownloadURL%20%3FdownloadURL%20. }%20order%20by%20desc(%3Fissued)

vrati format XML. Da sa zmeit na CSV.

Ja to len ručne sťahujem každý pondelok a spustím porovnávanie zmien medzi súbormi čo sa zmenilo, čo treba upraviť a čo chybné nahlásiť na opravu. Zatiaľ od 12.02.2024 s tým stojím.

Bude sa dať pripojiť?

Áno.

Pracovná skupina OpenData 2024-03-26: Nová koncepcia otvorených dát registra adries:
Link na pripojenie

Dve veci:

Záznam z poslednej pracovnej skupiny OpenData venovej datasetom registra adries si môžete pozrieť tu:

Pred časom sa otvorila diskusia k nemennosti liniek pre sťahovanie súborov. Riešili sa v tomto vlákne na githube projektu NKOD

Výsledkom je, že sme sa po zvážení pre a proti rozhodli ponechať súčasnú implementáciu, ktorá hovorí, že pokiaľ sa nezmení/nenahradí nahratý súbor na data.slovensko.sk, tak sa linka nemení. Ako náhle sa súbor nahradí novým, tak sa jeho linka na stiahnutie, tj. dcat:downloadUrl zmení. Nový portál jednak harvestuje lokálne katalógy, kde sa toto pravidlo nedá vynútiť (aspoň nie v dohľadnej dobe), no najdôležitejší fakt je, že je skutočne najdôležitejšie mať správne skatalogizované metadáta, kde je kľúčové skutočné časové pokrytie datasetu a nie administratívne metadáta (dátum vytvorenia, dátum modifikácie), a rovnako je kľúčovým správna katalogizácia distribúcií - tj. že obsahovo musia byť totožné, a líšiť sa môžu len formátom.

Niektorí poskytovatelia majú už teraz správne katalgizované metadáta, niektorí nie. Pokiaľ je to prioritou pri spracovaní, budeme sa snažiť pomáhať poskytovateľom dávať do poriadku svoje metadáta, aby sa dali jednotne efektnívne spracovať s ohľadom na správne metadáta.

Ako príklad môžete vidieť usmernenia týkajúce sa správnej katalogizácie a získavania najnovších verzí zoznamov aktivovaných schránok na doručovanie, čo sú opendata NASESu.

Usmernenie pre poskytovateľa (NASES)
Súčasná nesprávna katalogizácia zoznamu schránok na doručovanie (2024-04-04)
Odporučená správna katalogizácia zoznamu schránok na doručovanie (2024-04-04)

Usmernenie pre konzumentov
Usmernenie pre získanie najnovšieho zoznamu schránok na doručovanie

Je to určite niečo nové, zmena, ktorú budú musieť spraviť (zvyknúť si) niektorí poskytovatelia, ako aj konzumenti. V skutočnosti ale tieto zmeny, nie sú vôbec náročné, ale sú veľmi dôležité. A teraz je presne ten čas, kedy do toho treba ísť.

Za mna velke “plus jedna”.

Ono, ak si dobre pamatam (a “link rot na MIRRI a inde” zial velmi nepomaha), tak napr. cela “prioritna OS 7.5” bola o.i. o zvyseni poctu dostupnych otvorenych udajov a kopa projektov v dokumentacii vycislovala ci uz orientacne pocty novych datasetov alebo aj konkretne zoznamy.

A dve vychodiska:

  1. OPII uz skoncil, t.j. najneskor k 31.12.2023 mali byt vsetky tie projekty v produkcii, vsetko odovzdane, hotove, funckne a az nakoniec prevzate a vyfakturovane.
  2. Uz pocas pisania tych projektov platilo, ze “open data” = “… aj katalogizovane na data.gov.sk”

T.j. odpocet mal byt z isteho pohladu jednoduchy: Ukoncenie OPII malo byt viditelne o.i. v podobe vcelku masivneho narastu poctu datasetov na data.gov.sk .

Ak nie je, tak mozeme konstatovat, ze:

  • maly problem: MIRRI zlyhalo pri upgrade katalogu
  • velky problem: MIRRI zlyhalo pri riadeni a kontrole novych projektov informatizacie
  • velky problem: zlyhali ale aj implementatorit projektov, ak napriek tomu, ze mali v cieloch “nove datasety”, dovolili MIRRI s katalogom manipulovat tak, ze tam tie “svoje nove datasety” nemohli nahodit

A ono mna teraz ani tak nezaujima, kto konkretne je za to zodpovedny (ci pani byvala ministerka, ci ludia z Datovky, ci ludia z OPII/7.5 projektov, …), skor mi nateraz postaci sa priblizit k tomu, co je zadrhel. Ta metrika na os 7.5 bola v zasade az primitivne jednoducha (=“kvazi hocijake nove datasety”), ale “dopadlo to ako dopadlo”, t.j. stovky milionov minute, ale kopa novych datasetov zaevidovanych na data.gov.sk nikde.

Snazim sa na to prist preto, aby som vedel, ci a ako mam ja ako obcan upravit svoje ocakavania a aktivitu, lebo fakt:

  • penazi bolo vela
  • latka IMHO “lezala na zemi”, stacilo prekrocit
  • ale aj tak furt zle resp. nic

Ako inak este treba davat poziadavky a formulovat ocakavania?

(Btw, velka pochvala a uznanie pre @liska , ze napriek takemuto tristnemu vysledku tu za MIRRI nadalej chodi a komunikuje.)

1 Like