Publikačný profil DCAT-AP-SK

V súčasnosti prebieha schvaľovanie štandardu DCAT-AP-SK na pracovnej skupine PS1, ktorý je mierne odlišný od toho, čo súčasne podporuje data.gov.sk. Čiže toto si v podstate prosí o zmenovú požiadavku, ktorá by sa mohla podariť :innocent: Podľa mojich info data.gov.sk skončil zhodou okolností tesne pred vydaním tohto štandardu. Tak či onak nefunguje endpoint

https://data.gov.sk/sparql

čo je možno nakoniec aj dobre, že RDFka už budú v súlade s celou sémantickou flotilou.
Momentálne teda nie je možné použiť SPARQL na dopytovanie a efektívne vyhľadávanie v publikovaných dátach na data.gov.sk.

Avšak rozdiely sú veľmi malé (atribúty sú naviazané na nesprávne entity, niektoré číselníky sú nesprávne) a navyše myslím že CKAN podporuje DCAT, čiže veľký update to až nie je, skôr by som povedal dorábka. Naplnenie cieľov SP Otvorené dáta pre publikovanie je veľmi ľahko realizovateľné. Aby som ešte dovysvetlil, tieto metadáta (RDF) budú vznikať pre všetky datasety automaticky, aj pre CSV, ODS, XML či RDF.

Preto toto prosím berte ako návrh na pripomienkovanie, budeme radi každému príspevku, čI komentu. v Zásade ide prejsť cez publikačný profil, tj. cez triedy profilu a kontrolované slovníky a overiť či sú OK, resp. či ich povinnosť je OK, resp. či ukazujú na správnu číselníkovú hodnotu (v rámci SK a EÚ).

DCAT-AP-SK celé znenie
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23987267

Kľúčové triedy profilu všetky

Katalóg - slúži na zoskupenie datasetov.
špecifikácia
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23987924
návrh GUI

vygenerované RDF/XML - register adries

poznámka - katalóg úpne chýba na data.gov.sk, čiže o túto jednu vec sa to rozšíri. Katalóg je nutný na zoskupenie datasetov. Na data.gov.sk nájdete len samostatné datasety ale neviete, čoho sú vcelkom. Napr. na data.gov.sk je napr. takýto zoznam datasetov Datasety -data.gov.sk . V skutočnosti tvoria jeden celok - tj. Register adries, ale o tom nikd nie je informácia. A tá je pre opendata dôležitá aj na tejto úrovni.

Alebo napr. školstvo publikuje datasety takto

https://www.minedu.sk/data/att/9199.xls

čo je vlastne tiež katalóg (Základný katalóg MŠ).

Dataset - základná publikačná jednotka, tvorená zoznam publikovaných hodnôt.

https://wiki.finance.gov.sk/display/PS1/Triedy
špecifikácia
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23987926

vygenerované RDF/XML - kraje SR

Distribúcia - konkrétny fyzický formát datasetu (napr. RDF/XML, ODS, CSV a podobne)
špecifikácia
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23987930

vygenerované RDF/XML (dve ditribúcie rdf a csv)

Kontrolované slovníky:

UML Model

Nghia o DCATe na opendata meetupe 10

Pre úplnosť ešte vkladám aj GUI zo súčasného riešenia:

Vytvorenie datasetu

Pridanie dát

Dodatočné informácie

Práve som dokončil aktualizáciu používateľskej príručky na registráciu URI identifikátorov v MetaIS.
http://semantickyweb.sk/upvii/2017-12-21-Pouzivatelska_prirucka_na_registraciu_URI_v_MetaIS_v4-ML.pdf

Prvú verziu príručky som robil pred cca 2 rokmi, a na formulároch som našiel pár nezrovnalostí s dnešným DCAT-AP-SK (niektoré atribúty sú zbytočne povinné, a veľmi málo má naopak byť povinnými). Najväčši problém je, že som si informáciu o verzii a platnosti spojil s distribúciou datasetu a nie samotným datasetom (distribucia datasetu nie je verzia datasetu). :blush: Vtedy sme totiž prijali takúto interopretáciu.

Tu je zoznam navrhovaných opráv
http://semantickyweb.sk/upvii/2017-12-21-OpravyMetaIS-DCAT-AP-SK.ods

Poslal som to aj na UPVII, myslím že existuje nejaká supportka preň, tak verím že sa tieto opravy dokážu urobiť, lebo sú to naozaj len maličké šachy s atribútmi.

Čiže suma sumárum:
NASES data.gov.sk má napr. nesúlad s údajom o licencii, ktorý sa má viazať na distribúciu, nie dataset, a naopak, informácia o platnosti sa viaže na dataset nie na distribúciu. METAIS má zas chybu v tom, že časová platnosť a informácia o verzii sa má viazať na Dataset a nie na distribúciu. (viď napr. európsky, resp. nemecký DCAT)

Čiže toto je presne úloha DCAT-AP-SK, aby to už bolo rovnako.

Aby som ešte upresnil účel: MetaIS poskytuje subsystém URI registrácia, kde je možné nájsť schválené URI či už pre dátové prvky, alebo všetkých entít v MetaIS. Keďže ale sa ráta s prepojením data.gov.sk s MetaIS (napr. pri publikácii referenčných údajov na data.gov.sk sa využijú služby MetaIS pre získanie/pridelenie URI), tak je veľmi dôležité, aby boli publikačné metadáta rovnaké. Zatiaľ to ešte nehorí, ale čoskoro veľmi bude.

Takže po nejakom čase je konečne na svete
Rozhranie pre katalóg otvorených dát DCAT-AP-SK2.0 (otvorený formálny štandard), ktorý bude prvý krát implementované v novom portáli otvorených údajov.

DCAT-AP-SK2.0 bol vytvorený v rámci OD2.0 ako jeden z výstupov projektu v spolupráci s MFF UK. Model je vytvorený prostredníctvom ontológie DCAT 2.0, štandardu DCAT-AP 2.0.1 a rôzne pridané národné dátové prvky nad rámec DCAT (napr. podmienky používania, typ datasetu - {HVD, publikačné minimum, Najžiadanejší dataset}).

:point_right: DCAT-AP-SK2.0 je určený nielen pre Národný katalóg (NKOD), ktorý bude prevádzkovaný na data.gov.sk, ale aj pre lokálne katalógy (LKOD), prostredníctvom ktorých budú môcť poskytovatelia otvorených údajov spristupniť ich metadáta na automatizované skatalogizovanie, tzv. harvestáciu, ktorú vykoná sám NKOD. Čiže poskytovateľ prevádzkujúci ISVS obsahujúci otvorené údaje môže buď poskytnúť službu, ktorá vráti zoznam otvorených dát ktoré sprístupňuje, alebo poskytne len súbor na webové prístupové miesto (DCAT Dokument), ktorý si NKOD načíta, alebo poskytne rovno SPARQL Endpoint (toto zatiaľ nie je prorita, ale napr. v zahraničí je to už pomerne bežná forma prístupu. U nás napr. portál znalosti poskytuje sparql endpoint na https://znalosti.gov.sk/sparqlView, ktorý slúži okrem iného na to, aby sa ho NKOD rovno spýtal (keď bude v prevádzke), aké otvorené údaje znalosti poskytuješ? - odpoveďou budú ontológie).

Pre podporu vytvorenia LKOD, alebo dotazovania NKOD pripravujeme bezplatné školenia:

Automatizovaná katalogizácia otvorených dát v NKOD
https://wiki.vicepremier.gov.sk/pages/viewpage.action?pageId=101822656

alebo
Dotazovanie metadát otvorených údajov cez SPARQL Endpoint
https://wiki.vicepremier.gov.sk/pages/viewpage.action?pageId=101822877

zdrojový kód pre vytvorenie dokumentácie je prístupný na githube:

1 Like

Ahojte. Dnes robíme školenie na tému: Dotazovanie otvorených dát cez SPARQL Endpoint.
Prihlásiť sa môžete tu: Školenie: OD03 - Dotazovanie metadát otvorených údajov cez SPARQL Endpoint - Metodika pre otvorené údaje (opendata.gov.sk) - Confluence

1 Like

Tu je video zo školenia. Ak by som Vám mohol odporučiť aspoň pár málo minút, tak si pozrite aspoň:
časť 2 : Od tabuliek ku grafom a ich dotazovaniu (Úvod do RDF a SPARQL)

resp. časti 6 a 7: DCAP-AP-SK 2.0 a ich dopytovanie cez SPARQL

No a určite ste už zachytili, že Ministerstvo financií SR zverejnilo svoj nový opendatový portál https://opendata.mfsr.sk . My sme tomu absolútne radi, a to že majú skvele spracovaný aj lokálny katalóg podľa štandardu DCAT-AP-SK 2.0, je úplná paráda. LKOD MFSR je dostupný tu:
https://opendata.mfsr.sk/opendata/catalog

Týmto pádom ich budeme vedieť harvestovať do NKODu. Musíme ešte urobiť nejaké testy, a manuálne ho registrovať do konfiguračných súborov NKOD, pretože ešte nemáme frontend.
Harvestácia bude ale fungovať.

Z pohľadu Scenárov sprístupňovania otvorených údajov sa jedná o scenár A2.

Každopádne to ešte stále nie je všetko čo MFSR v oblasti opendát v dohľadnej dobe pripravuje.
Nové OpenDataAPI pre CES, kde budú údaje o faktúrach, objednávkach, a ďaľších etitách tiež sprístupnéné ako forme LinkedData. Faktúra bude vyzerať takto:
https://wiki.vicepremier.gov.sk/pages/viewpage.action?pageId=101833175

Tieskame :clap:

3 Likes

Finančná správa zaviedla štandard DCAT (DataCatalogVocabulary) vo verzii DCAT-AP-SK 2.0 do katalógu datasetov, čím splnila európske štandardy na poskytovanie dát. Týmto krokom finančná správa vytvorila lokálny katalóg datasetov, ktorý je možné stiahnuť vo formátoch RDF, JSON a CSV. Na základe katalógu je vo väčšej miere prístupný automatizovaný jednotný zber jednotlivých údajov s ich metaúdajmi.

Cez API poskytuje aj údaje o daňovom indexe hodnotených firiem.

4 Likes

Tu by som len dodal, že ešte to spoločne s MFSR “dobrusujeme”

Každopádne validáciu riešime strojovo cez tzv. Povinné vlastnosti metadát otvorených údajov DCAT-AP-SK2.0-SHAPES

Plán je poskytnúť túto službu ako API, takto sa to štandardne na portáloch používa, napr. v DCAT validator v Belgicku, či DCAT Validator v Nemecku a ostatné. Zatiaľ to robíme iba na localhoste, tj. OVM (alebo ich dodávateľ) nám pošle ich lokálny katalóg v DCAT a ja spustím validáciu. Tu môžete vidieť ako to prebieha (staršia verzia LKODu MFSR):

Každopádne ale platí, že MFSR patrí medzi top OVM, ktoré implementujú či už DCAT, alebo ich opendata sú už LinkedOpenData (CES), a to si zaslúži určite peknú publikáciu niekde v zahraničí.

Ak chcete vidieť momentálne asi najlepší LKOD, nech sa páči LKOD mesta Zvolen:

https://opendatatest.zvolen.sk/set/catalog/lkod

Kliknite si plís na uvedený link, a potom po získaní odpovede, hodte do prehliadača aj niektoré URI pre dataset:

Všimnite si inak aký je ten json-ld pekne čitateľný, stačí použiť kontext so štandardu DCAT-AP-SK
https://raw.githubusercontent.com/datova-kancelaria/dcat-ap-sk-2.0/main/kontexty/rozhranie-katalógu-otvorených-dát.jsonld

ČItateľný je, aj vyzerá dobre, akurát držím palce programátorom, ktorí budú musieť pracovať s diakritikou v kľúčoch/názvoch položiek. To je teda pekné SK peklo.

Nj, rozmýšlal som nad tým keď sme to tvorili, v rámci projektu OD2.0 sme to prebrali rovno od bratov čechov
https://ofn.gov.cz/rozhraní-katalogů-otevřených-dat/2021-01-11/kontexty/rozhraní-katalogů-otevřených-dat.jsonld

Tak snáď s tým budeme vedieť žiť. Uvidíme, ak budú s tým nejaké komplikácie, tak sa k tomu nejako postavíme. Zatiaľ teda napr. ten LKOD Zvolenu bol urobený bez problémov, tak si držíme palce.

Zle som sa možno vyjadril. Programátori s tým nejako pracovať zvládnu. Horšie to bude pri niektorých systémoch, ktoré takéto dáta budú spracúvať. Ostane obkľuka cez nejaký data ingestion/conversion tool.

Rozumiem. Je to v podstate veľmi minimálna oprava, hoc budeme to musieť vykomunikovať s tými ktorí už LKOD imlementovali. Zaradil som ju do taskov pre malý update

Tak či onak potrebujeme ešte pridať aj dátum publikácie katalógu/datasetu/distribúcie (dct:issued). V rámci vlastností datasetu máme síce čas - dct:temportal (časové pokrytie od do), ale to vlastne môžu byť dátumy aj historické a nejedná sa o klasické administratívne metadata, kedy bol dataset publikovaný.

Rád by som pridal informáciu o update štandardu DCAT-AP-SK na verziu 2.0.1
https://datova-kancelaria.github.io/dcat-ap-sk-2.0/

kde sa pridali 4 nové atribúty pre dataset:

Dátum publikácie, Dátum modifikácie, Webová stránka datasetu a Súvisiaci zdroj datasetu.
Čo sa týka časových atribútov, tak podľa ČR sme mali síce to najdôležitejšie, a to Časové pokrytie datasetu, ale pre lepšiu prácu s portálom (sortovanie podľa času pridania/modifikácie), sme pridali aj tie nové administratívne metadáta.

Ešte sa na poslednú chvíľu vrátim k DCAT-AP-SK-2.0.2, ktorý je tu publikovaný tu:
https://htmlpreview.github.io/?https://github.com/datova-kancelaria/dcat-ap-sk-2.0/blob/develop/index.html

Tu môžete vidieť (modrým) zmeny, ktoré boli spravené od verzie 2.0:

Aktualizované príklady serializácie môžete nájsť tu:
Súbor katalógu: GitHub & BitBucket HTML Preview
Súbor datasetu: GitHub & BitBucket HTML Preview

Predchádzajúci príspevok som uviedol pre kompletnosť. Súčasný stav je ale taký, že pravdepodobne preskočíme verziu 2.0.2 a pokúsime sa implementovať verziu 3.0.0, ktorá vyšla len nedávno. Zmena nebude príliš veľká, ale je veľmi podstatná. V podstate prišli sme na chybu v implementácii, že sa nám neserializuje dobre APIčko, ktoré sprístupňuje daný dataset. Pri špecifikácii ako to má byť a konzulácii s Českou stranou, sme prišli na to, že je potrebné implementovať 3.0.0 verziu, a to najmä pre súlad s DCAT-AP 3.0.0:

DCAT-AP 3.0 (vyšiel vo februári 2024)

spolu s verziou pre Datasety s vysokou socio-ekonomickou hodnotou (HVD)
DCAT-AP High Value Datasets (vyšiel v decembri 2023)

Keď sa na to pozrieme, ako to majú v ČR:
https://ofn.gov.cz/rozhraní-katalogů-otevřených-dat/draft/

Tak keď to veľmi rýchlo zhrniem, tak toto je základný model, kde môžete vidieť:

Keď sa pozrieme ešte bližšie na pravidlá HVD, tak pre dataset typu HVD platí, že:

  • dataset, dátová služba a distribúcia musí mať uvedený daný legislatívny predpis
  • dataset musí mať priradený kategóriu HVD a tému HVD
  • dataset musí byť prístupný ako súbor na stiahnutie ale aj vo forme dátovej služby
  • dátová služba musí mať dokumentáciu a definovaný kontatkný bod

Viac podrobností o návrhu DCAT-AP-SK-3.0.0 môžete nájsť tu:

pričom výsledná špecifikácia DCAT-AP-SK-3.0.0 vzniká tu:
https://htmlpreview.github.io/?https://github.com/slovak-egov/centralny-model-udajov/blob/develop/tbox/national/dcat-ap-sk/index.html