Publikačný profil DCAT-AP-SK

V súčasnosti prebieha schvaľovanie štandardu DCAT-AP-SK na pracovnej skupine PS1, ktorý je mierne odlišný od toho, čo súčasne podporuje data.gov.sk. Čiže toto si v podstate prosí o zmenovú požiadavku, ktorá by sa mohla podariť :innocent: Podľa mojich info data.gov.sk skončil zhodou okolností tesne pred vydaním tohto štandardu. Tak či onak nefunguje endpoint

čo je možno nakoniec aj dobre, že RDFka už budú v súlade s celou sémantickou flotilou.
Momentálne teda nie je možné použiť SPARQL na dopytovanie a efektívne vyhľadávanie v publikovaných dátach na data.gov.sk.

Avšak rozdiely sú veľmi malé (atribúty sú naviazané na nesprávne entity, niektoré číselníky sú nesprávne) a navyše myslím že CKAN podporuje DCAT, čiže veľký update to až nie je, skôr by som povedal dorábka. Naplnenie cieľov SP Otvorené dáta pre publikovanie je veľmi ľahko realizovateľné. Aby som ešte dovysvetlil, tieto metadáta (RDF) budú vznikať pre všetky datasety automaticky, aj pre CSV, ODS, XML či RDF.

Preto toto prosím berte ako návrh na pripomienkovanie, budeme radi každému príspevku, čI komentu. v Zásade ide prejsť cez publikačný profil, tj. cez triedy profilu a kontrolované slovníky a overiť či sú OK, resp. či ich povinnosť je OK, resp. či ukazujú na správnu číselníkovú hodnotu (v rámci SK a EÚ).

DCAT-AP-SK celé znenie
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23987267

Kľúčové triedy profilu všetky

Katalóg - slúži na zoskupenie datasetov.
špecifikácia
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23987924
návrh GUI

vygenerované RDF/XML - register adries

poznámka - katalóg úpne chýba na data.gov.sk, čiže o túto jednu vec sa to rozšíri. Katalóg je nutný na zoskupenie datasetov. Na data.gov.sk nájdete len samostatné datasety ale neviete, čoho sú vcelkom. Napr. na data.gov.sk je napr. takýto zoznam datasetov Datasety -data.gov.sk . V skutočnosti tvoria jeden celok - tj. Register adries, ale o tom nikd nie je informácia. A tá je pre opendata dôležitá aj na tejto úrovni.

Alebo napr. školstvo publikuje datasety takto

https://www.minedu.sk/data/att/9199.xls

čo je vlastne tiež katalóg (Základný katalóg MŠ).

Dataset - základná publikačná jednotka, tvorená zoznam publikovaných hodnôt.

https://wiki.finance.gov.sk/display/PS1/Triedy
špecifikácia
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23987926

vygenerované RDF/XML - kraje SR

Distribúcia - konkrétny fyzický formát datasetu (napr. RDF/XML, ODS, CSV a podobne)
špecifikácia
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23987930

vygenerované RDF/XML (dve ditribúcie rdf a csv)

Kontrolované slovníky:

UML Model

Nghia o DCATe na opendata meetupe 10

Pre úplnosť ešte vkladám aj GUI zo súčasného riešenia:

Vytvorenie datasetu

Pridanie dát

Dodatočné informácie

Práve som dokončil aktualizáciu používateľskej príručky na registráciu URI identifikátorov v MetaIS.
http://semantickyweb.sk/upvii/2017-12-21-Pouzivatelska_prirucka_na_registraciu_URI_v_MetaIS_v4-ML.pdf

Prvú verziu príručky som robil pred cca 2 rokmi, a na formulároch som našiel pár nezrovnalostí s dnešným DCAT-AP-SK (niektoré atribúty sú zbytočne povinné, a veľmi málo má naopak byť povinnými). Najväčši problém je, že som si informáciu o verzii a platnosti spojil s distribúciou datasetu a nie samotným datasetom (distribucia datasetu nie je verzia datasetu). :blush: Vtedy sme totiž prijali takúto interopretáciu.

Tu je zoznam navrhovaných opráv
http://semantickyweb.sk/upvii/2017-12-21-OpravyMetaIS-DCAT-AP-SK.ods

Poslal som to aj na UPVII, myslím že existuje nejaká supportka preň, tak verím že sa tieto opravy dokážu urobiť, lebo sú to naozaj len maličké šachy s atribútmi.

Čiže suma sumárum:
NASES data.gov.sk má napr. nesúlad s údajom o licencii, ktorý sa má viazať na distribúciu, nie dataset, a naopak, informácia o platnosti sa viaže na dataset nie na distribúciu. METAIS má zas chybu v tom, že časová platnosť a informácia o verzii sa má viazať na Dataset a nie na distribúciu. (viď napr. európsky, resp. nemecký DCAT)

Čiže toto je presne úloha DCAT-AP-SK, aby to už bolo rovnako.

Aby som ešte upresnil účel: MetaIS poskytuje subsystém URI registrácia, kde je možné nájsť schválené URI či už pre dátové prvky, alebo všetkých entít v MetaIS. Keďže ale sa ráta s prepojením data.gov.sk s MetaIS (napr. pri publikácii referenčných údajov na data.gov.sk sa využijú služby MetaIS pre získanie/pridelenie URI), tak je veľmi dôležité, aby boli publikačné metadáta rovnaké. Zatiaľ to ešte nehorí, ale čoskoro veľmi bude.

Takže po nejakom čase je konečne na svete
Rozhranie pre katalóg otvorených dát DCAT-AP-SK2.0 (otvorený formálny štandard), ktorý bude prvý krát implementované v novom portáli otvorených údajov.

DCAT-AP-SK2.0 bol vytvorený v rámci OD2.0 ako jeden z výstupov projektu v spolupráci s MFF UK. Model je vytvorený prostredníctvom ontológie DCAT 2.0, štandardu DCAT-AP 2.0.1 a rôzne pridané národné dátové prvky nad rámec DCAT (napr. podmienky používania, typ datasetu - {HVD, publikačné minimum, Najžiadanejší dataset}).

:point_right: DCAT-AP-SK2.0 je určený nielen pre Národný katalóg (NKOD), ktorý bude prevádzkovaný na data.gov.sk, ale aj pre lokálne katalógy (LKOD), prostredníctvom ktorých budú môcť poskytovatelia otvorených údajov spristupniť ich metadáta na automatizované skatalogizovanie, tzv. harvestáciu, ktorú vykoná sám NKOD. Čiže poskytovateľ prevádzkujúci ISVS obsahujúci otvorené údaje môže buď poskytnúť službu, ktorá vráti zoznam otvorených dát ktoré sprístupňuje, alebo poskytne len súbor na webové prístupové miesto (DCAT Dokument), ktorý si NKOD načíta, alebo poskytne rovno SPARQL Endpoint (toto zatiaľ nie je prorita, ale napr. v zahraničí je to už pomerne bežná forma prístupu. U nás napr. portál znalosti poskytuje sparql endpoint na https://znalosti.gov.sk/sparqlView, ktorý slúži okrem iného na to, aby sa ho NKOD rovno spýtal (keď bude v prevádzke), aké otvorené údaje znalosti poskytuješ? - odpoveďou budú ontológie).

Pre podporu vytvorenia LKOD, alebo dotazovania NKOD pripravujeme bezplatné školenia:

Automatizovaná katalogizácia otvorených dát v NKOD
https://wiki.vicepremier.gov.sk/pages/viewpage.action?pageId=101822656

alebo
Dotazovanie metadát otvorených údajov cez SPARQL Endpoint
https://wiki.vicepremier.gov.sk/pages/viewpage.action?pageId=101822877

zdrojový kód pre vytvorenie dokumentácie je prístupný na githube:

1 Like