Lokálne katalógy otvorených dát (LKOD)

Ahojte,
ako postupne narastá počet Lokálnych katalógov otvorených dát (LKOD), tak začína narastať aj množstvo súvisiacich informácií, metodík, ale aj problémov a častých chýb pri ich budovaní. A keďže je téma LKODov, čo sa týka budúcnosti publikácie otvorených dát jedna z najdôležitejších, vytvoril som nové vlákno, ktoré bude zamerané práve na túto problematiku.

Najskôr začnem krátkym vysvetlením čo LKOD vlastne je, pretože nie je to isté ako Lokálny opendatový portál nejakého poskytovateľa. LKOD je strojovo-spracovateľná množina informácií, ktoré popisujú definovaných rozsahom vlastností, aké otvorené dáta poskytovateľ má, ako sú štruktúrované, v akom formáte sú dostupné, resp. akou licenciou sú upravené ich podmientky použitia a podobne. Následne, nový centrálny portál otvorených dát data.slovensko.sk každodenne navštivuje miesto (prístupový bod) u poskytovateľa, kde je tento katalóg zverejnený a dané informácie v ňom si sitahne do svojho centrálneho Národného katalógu otvorených dát (NKOD).

Pri LKODe teda nejde o samotné dáta, len o ich popis v strojovo-spracovateľnom formáte. Zoznam týchto metadát popisuje národná verzia EÚ štandardu pre katalogizáciu dát DCAT, konkrétne sa jedná o DCAT-AP-SK-2.0 štandard. Svoju formálnu špecifikáciu má zverejnenú Dátovou kanceláriou tu:
https://datova-kancelaria.github.io/dcat-ap-sk-2.0/

Pričom ale momentálne už má novšiu verziu publikovanú tu:
https://htmlpreview.github.io/?https://github.com/datova-kancelaria/dcat-ap-sk-2.0/blob/develop/index.html

Samotná špecifkácia je spracovaná na GitHube dátovej kancelárie, kde je napr. možné navrhovať jeho rozšírenia, či zadať rôzne požiadavky/pripomienky naň.

Na platforme slovensko.digital k tomu existuje aj samostatné vlákno, ktoré sa tejto téme venuje podrobnejšie.

Takže keď to trochu zhrniem, LKOD nie je portál otvorených dát, len katalóg otvorených dát, a dnes väčšina opendatových portálov takýto katalóg neposkytuje. Výnimka je napr. opendatový portál Ministerstva financií SR

prípadne opendatový portál Trnavského samosprávneho kraja

LKOD je možné realizovať aj bez opendatového portálu, napr. mesto Zvolen nemá opendatový portál, ale rovno poskytuje LKOD na jeho strojové spracovanie:
https://opendata.zvolen.sk/set/catalog/lkod

LKOD môže byť budovaný 2 základnými spôsobmi, vo forme DCAT-AP dokumentov (hore uvedené), alebo vo forme SPARQL Endpointu (napr. data.slovensko.sk). Úvodné informácie pre jeho budovanie je možné násjť v tomto školení:

Zoznam aktuálne vytvorených LKODov harvestovaných centrálnym portálom data.slovensko.sk je dostupný tu:
https://data.slovensko.sk/lokalne-katalogy

Priebeh ich budovania/odbuguovania je možné sledovať na GitHube harvestra Národného katalógu otvorených dát zameraného na harvestovanie LKODov tu:

2 Likes

V súvislosti s problematikou riešenia nemennosti URLinek na stiahnutie distiribúcií otvorených údajov, tj. či môžu meniť alebo nie:

som spravil krátku analýzu typov riešení nad už vytvorenými lokálnymi katalógmi. Katalógov je 10, ale sú tvorené 4 rozličnými tvorcami rovnakým spôsobom, čiže jedná o analýzu 4 týchto prístupov. 0tý prístup je samostný NKOD.

Vo všobecnosti

platí, že ak sú správne vyplnené metadáta (časová platnosť od – do), tak sa cez SPARQL Endpoint dá vždy získať distribúcia datasetu podľa času (najnovšia, najstaršia), či sa už downloadUrl linky menia, alebo nie, resp. či sa dáta opravili alebo nie. Ak sa datasety zoskupujú do dátovej série, tak sa dá vždy získať najnovšia verzia datasetu (jeho distribúcie) .

0) dcat:downloadUrl v NKODe

V prípade NKODu je momentálne implementovaný princíp, pri zmene nahratého súboru na stiahnutie, sa mení aj URL distribúcie.

1) dcat:downloadUrl v LKODe Zvolena, Levoča, Štátny veterinárny a potravinový ústav (LKOD bez GUI)

katalóg: https://opendata.zvolen.sk/set/catalog/lkod
príklad datasetu: https://opendata.zvolen.sk/set/mu-zv--pocty-obcanov-v-jednotlivych-rokoch-2024-03-19
dcat:downloadUrl jeho distribúcie: https://opendata.zvolen.sk/set/mu-zv--pocty-obcanov-v-jednotlivych-rokoch-2024-03-19/resource/c43e0b15-dd5b-4eb9-a31e-e4638e88485e

Každý deň vzniká nový dataset s novým URI, s novou distribúciou a novou dcat:downloadUrl (súbory sa dajú stiahnuť po manuálnej zmene dátumu v URI). Nie je jasné, či sa zmení koncová ID v URL, ak by sa náhodou súbor kvoli chybe opravil a znova sprístupnil. Datasety majú správne časové metadáta pokrytia.

Hlavné chyby::

  • súbor s katalógom obsahuje vždy iba datasety z daného dňa, pričom je potrebné katalóg “nabaľovať” a zoskupovať rovnaké datasety do časovej dátovej série.

2) dcat:downloadUrl v LKODe MFSR (opendatový portál s GUI, možno raz Bratislava?)

Katalóg: https://opendata.mfsr.sk/opendata/catalog/lkod
Príklad datasetu: https://opendata.mfsr.sk/opendata/catalog/zahranicne-pracovne-cesty-uva-obdobie-od-1-1-2023 , alebo https://opendata.mfsr.sk/opendata/catalog/priebezne-plnenie-statneho-rozpoctu
dcat:downloadUrl datasetu: https://opendata.mfsr.sk/opendata/download/zahranicne-pracovne-cesty-uva-obdobie-od-1-1-2023/1, alebo https://opendata.mfsr.sk/opendata/download/priebezne-plnenie-statneho-rozpoctu/1

URIčka sa editujú manuálne, čím sú perzistentné aj dcat:downloadUrl. Chýbajú časové metadáta – pokrytie od – do.

Hlavné chyby::

3) dcat:downloadUrl v LKODe NOCky, Trnava, Liptovský Mikuláš, Levice (LKOD bez GUI)

Katalóg: https://www.nocka.sk/opendata/set/lkod
Príklad datasetu: https://www.nocka.sk/opendata/set/umelci
dcat:downloadUrl distribúcie datasetu: https://www.chcemsaprihlasit.sk/opendata/umelci.json

V tomto prípade sa nemení nič. Ani URI datasetu, distribúcie, ani dcat:downloadUrl. Chýbajú akékoľvek časové metadáta.

Hlavné chyby: nesprávne URI katalógu: Národný katalóg otvorených dát nevráti nič

4) dcat:downloadUrl v LKODe TSK (Opendatový portál s GUI, arcgis riešenie) …

katalóg: https://rss-dcat-opendata-ttsk.hub.arcgis.com/api/feed/dcat-ap/2.0.1.json
príklad datasetu: https://rss-dcat-opendata-ttsk.hub.arcgis.com/apps/opendata-ttsk::plán-obnovy-a-no-regret-oblast

Chýbajú metadáta časové pokrytie datasetu. Existujú len administratívne metadáta – dátum vytvorenia, dátum modifikácie.

Hlavné chyby::

  • Celý LKOD je v jednom súbore.
  • dct:description obsahuje HML formát
  • URI pre datasetu je v skutočnosti jeho dcat:landingPage, čiže sa nedajú získať atribúty datasetov.
  • distribúcia nemá dcat:downloadUrl vôbec, nedá sa stiahnuť

Keď to zhrniem, obodoval som jednotlivé vlastnosti takto:

pričom porovnával som len existenciu časových metadát datasetu (dátum vytvorenia, dátum modifikácie, dátum pokrytia dát od, dátum pokrytia do) - pretože tieto údaje sú dôležité na objavenie najnovšieho datasetu, resp. nejakého v čase,

a perzistentnosť URIčok datasetu, distribúcie a linku na stiahnutie.
image

:point_right: Kedže pokiaľ sú správne metadáta vyplnené správne, tak ma vôbec nemusí zaujímať perzistentnosť URI/URLiek, pretože cez SPARQL Dotaz si vždy viem vypýtať najnojší dataset. Tu som teda dal dvojitú váhu za splnenie tejto váhy. (Pozn: či je LKOD generovaný z GUI portálu, resp. koľko je už takýchto nasadení do porovnania nevstúpilo, pretože z pohľadu strojového spracovania to je bezpredmentné).

Výsledok tohto porovnania je nasledovný:
image

Toto je zatiaľ len podklad do debaty, aké odporučenie (pravidlo vydať) čo sa týka perzistentnosti alebo meniteľnosti URLiek linkov na stiahnutie.