Lokálne katalógy otvorených dát (LKOD)

V súvislosti s problematikou riešenia nemennosti URLinek na stiahnutie distiribúcií otvorených údajov, tj. či môžu meniť alebo nie:

som spravil krátku analýzu typov riešení nad už vytvorenými lokálnymi katalógmi. Katalógov je 10, ale sú tvorené 4 rozličnými tvorcami rovnakým spôsobom, čiže jedná o analýzu 4 týchto prístupov. 0tý prístup je samostný NKOD.

Vo všobecnosti

platí, že ak sú správne vyplnené metadáta (časová platnosť od – do), tak sa cez SPARQL Endpoint dá vždy získať distribúcia datasetu podľa času (najnovšia, najstaršia), či sa už downloadUrl linky menia, alebo nie, resp. či sa dáta opravili alebo nie. Ak sa datasety zoskupujú do dátovej série, tak sa dá vždy získať najnovšia verzia datasetu (jeho distribúcie) .

0) dcat:downloadUrl v NKODe

V prípade NKODu je momentálne implementovaný princíp, pri zmene nahratého súboru na stiahnutie, sa mení aj URL distribúcie.

1) dcat:downloadUrl v LKODe Zvolena, Levoča, Štátny veterinárny a potravinový ústav (LKOD bez GUI)

katalóg: https://opendata.zvolen.sk/set/catalog/lkod
príklad datasetu: https://opendata.zvolen.sk/set/mu-zv--pocty-obcanov-v-jednotlivych-rokoch-2024-03-19
dcat:downloadUrl jeho distribúcie: https://opendata.zvolen.sk/set/mu-zv--pocty-obcanov-v-jednotlivych-rokoch-2024-03-19/resource/c43e0b15-dd5b-4eb9-a31e-e4638e88485e

Každý deň vzniká nový dataset s novým URI, s novou distribúciou a novou dcat:downloadUrl (súbory sa dajú stiahnuť po manuálnej zmene dátumu v URI). Nie je jasné, či sa zmení koncová ID v URL, ak by sa náhodou súbor kvoli chybe opravil a znova sprístupnil. Datasety majú správne časové metadáta pokrytia.

Hlavné chyby::

  • súbor s katalógom obsahuje vždy iba datasety z daného dňa, pričom je potrebné katalóg “nabaľovať” a zoskupovať rovnaké datasety do časovej dátovej série.

2) dcat:downloadUrl v LKODe MFSR (opendatový portál s GUI, možno raz Bratislava?)

Katalóg: https://opendata.mfsr.sk/opendata/catalog/lkod
Príklad datasetu: https://opendata.mfsr.sk/opendata/catalog/zahranicne-pracovne-cesty-uva-obdobie-od-1-1-2023 , alebo https://opendata.mfsr.sk/opendata/catalog/priebezne-plnenie-statneho-rozpoctu
dcat:downloadUrl datasetu: https://opendata.mfsr.sk/opendata/download/zahranicne-pracovne-cesty-uva-obdobie-od-1-1-2023/1, alebo https://opendata.mfsr.sk/opendata/download/priebezne-plnenie-statneho-rozpoctu/1

URIčka sa editujú manuálne, čím sú perzistentné aj dcat:downloadUrl. Chýbajú časové metadáta – pokrytie od – do.

Hlavné chyby::

3) dcat:downloadUrl v LKODe NOCky, Trnava, Liptovský Mikuláš, Levice (LKOD bez GUI)

Katalóg: https://www.nocka.sk/opendata/set/lkod
Príklad datasetu: https://www.nocka.sk/opendata/set/umelci
dcat:downloadUrl distribúcie datasetu: https://www.chcemsaprihlasit.sk/opendata/umelci.json

V tomto prípade sa nemení nič. Ani URI datasetu, distribúcie, ani dcat:downloadUrl. Chýbajú akékoľvek časové metadáta.

Hlavné chyby: nesprávne URI katalógu: Národný katalóg otvorených dát nevráti nič

4) dcat:downloadUrl v LKODe TSK (Opendatový portál s GUI, arcgis riešenie) …

katalóg: https://rss-dcat-opendata-ttsk.hub.arcgis.com/api/feed/dcat-ap/2.0.1.json
príklad datasetu: https://rss-dcat-opendata-ttsk.hub.arcgis.com/apps/opendata-ttsk::plán-obnovy-a-no-regret-oblast

Chýbajú metadáta časové pokrytie datasetu. Existujú len administratívne metadáta – dátum vytvorenia, dátum modifikácie.

Hlavné chyby::

  • Celý LKOD je v jednom súbore.
  • dct:description obsahuje HML formát
  • URI pre datasetu je v skutočnosti jeho dcat:landingPage, čiže sa nedajú získať atribúty datasetov.
  • distribúcia nemá dcat:downloadUrl vôbec, nedá sa stiahnuť

Keď to zhrniem, obodoval som jednotlivé vlastnosti takto:

pričom porovnával som len existenciu časových metadát datasetu (dátum vytvorenia, dátum modifikácie, dátum pokrytia dát od, dátum pokrytia do) - pretože tieto údaje sú dôležité na objavenie najnovšieho datasetu, resp. nejakého v čase,

a perzistentnosť URIčok datasetu, distribúcie a linku na stiahnutie.
image

:point_right: Kedže pokiaľ sú správne metadáta vyplnené správne, tak ma vôbec nemusí zaujímať perzistentnosť URI/URLiek, pretože cez SPARQL Dotaz si vždy viem vypýtať najnojší dataset. Tu som teda dal dvojitú váhu za splnenie tejto váhy. (Pozn: či je LKOD generovaný z GUI portálu, resp. koľko je už takýchto nasadení do porovnania nevstúpilo, pretože z pohľadu strojového spracovania to je bezpredmentné).

Výsledok tohto porovnania je nasledovný:
image

Toto je zatiaľ len podklad do debaty, aké odporučenie (pravidlo vydať) čo sa týka perzistentnosti alebo meniteľnosti URLiek linkov na stiahnutie.

1 Like