Publikačný profil DCAT-AP-SK

V súčasnosti prebieha schvaľovanie štandardu DCAT-AP-SK na pracovnej skupine PS1, ktorý je mierne odlišný od toho, čo súčasne podporuje data.gov.sk. Čiže toto si v podstate prosí o zmenovú požiadavku, ktorá by sa mohla podariť :innocent: Podľa mojich info data.gov.sk skončil zhodou okolností tesne pred vydaním tohto štandardu. Tak či onak nefunguje endpoint

https://data.gov.sk/sparql

čo je možno nakoniec aj dobre, že RDFka už budú v súlade s celou sémantickou flotilou.
Momentálne teda nie je možné použiť SPARQL na dopytovanie a efektívne vyhľadávanie v publikovaných dátach na data.gov.sk.

Avšak rozdiely sú veľmi malé (atribúty sú naviazané na nesprávne entity, niektoré číselníky sú nesprávne) a navyše myslím že CKAN podporuje DCAT, čiže veľký update to až nie je, skôr by som povedal dorábka. Naplnenie cieľov SP Otvorené dáta pre publikovanie je veľmi ľahko realizovateľné. Aby som ešte dovysvetlil, tieto metadáta (RDF) budú vznikať pre všetky datasety automaticky, aj pre CSV, ODS, XML či RDF.

Preto toto prosím berte ako návrh na pripomienkovanie, budeme radi každému príspevku, čI komentu. v Zásade ide prejsť cez publikačný profil, tj. cez triedy profilu a kontrolované slovníky a overiť či sú OK, resp. či ich povinnosť je OK, resp. či ukazujú na správnu číselníkovú hodnotu (v rámci SK a EÚ).

DCAT-AP-SK celé znenie
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23987267

Kľúčové triedy profilu všetky

Katalóg - slúži na zoskupenie datasetov.
špecifikácia
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23987924
návrh GUI

vygenerované RDF/XML - register adries

poznámka - katalóg úpne chýba na data.gov.sk, čiže o túto jednu vec sa to rozšíri. Katalóg je nutný na zoskupenie datasetov. Na data.gov.sk nájdete len samostatné datasety ale neviete, čoho sú vcelkom. Napr. na data.gov.sk je napr. takýto zoznam datasetov https://data.gov.sk/dataset?q=register+adries . V skutočnosti tvoria jeden celok - tj. Register adries, ale o tom nikd nie je informácia. A tá je pre opendata dôležitá aj na tejto úrovni.

Alebo napr. školstvo publikuje datasety takto

https://www.minedu.sk/data/att/9199.xls

čo je vlastne tiež katalóg (Základný katalóg MŠ).

Dataset - základná publikačná jednotka, tvorená zoznam publikovaných hodnôt.

https://wiki.finance.gov.sk/display/PS1/Triedy
špecifikácia
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23987926

vygenerované RDF/XML - kraje SR

Distribúcia - konkrétny fyzický formát datasetu (napr. RDF/XML, ODS, CSV a podobne)
špecifikácia
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23987930

vygenerované RDF/XML (dve ditribúcie rdf a csv)

Kontrolované slovníky:

UML Model

Nghia o DCATe na opendata meetupe 10

Pre úplnosť ešte vkladám aj GUI zo súčasného riešenia:

Vytvorenie datasetu

Pridanie dát

Dodatočné informácie

Práve som dokončil aktualizáciu používateľskej príručky na registráciu URI identifikátorov v MetaIS.
http://semantickyweb.sk/upvii/2017-12-21-Pouzivatelska_prirucka_na_registraciu_URI_v_MetaIS_v4-ML.pdf

Prvú verziu príručky som robil pred cca 2 rokmi, a na formulároch som našiel pár nezrovnalostí s dnešným DCAT-AP-SK (niektoré atribúty sú zbytočne povinné, a veľmi málo má naopak byť povinnými). Najväčši problém je, že som si informáciu o verzii a platnosti spojil s distribúciou datasetu a nie samotným datasetom (distribucia datasetu nie je verzia datasetu). :blush: Vtedy sme totiž prijali takúto interopretáciu.

Tu je zoznam navrhovaných opráv
http://semantickyweb.sk/upvii/2017-12-21-OpravyMetaIS-DCAT-AP-SK.ods

Poslal som to aj na UPVII, myslím že existuje nejaká supportka preň, tak verím že sa tieto opravy dokážu urobiť, lebo sú to naozaj len maličké šachy s atribútmi.

Čiže suma sumárum:
NASES data.gov.sk má napr. nesúlad s údajom o licencii, ktorý sa má viazať na distribúciu, nie dataset, a naopak, informácia o platnosti sa viaže na dataset nie na distribúciu. METAIS má zas chybu v tom, že časová platnosť a informácia o verzii sa má viazať na Dataset a nie na distribúciu. (viď napr. európsky, resp. nemecký DCAT)

Čiže toto je presne úloha DCAT-AP-SK, aby to už bolo rovnako.

Aby som ešte upresnil účel: MetaIS poskytuje subsystém URI registrácia, kde je možné nájsť schválené URI či už pre dátové prvky, alebo všetkých entít v MetaIS. Keďže ale sa ráta s prepojením data.gov.sk s MetaIS (napr. pri publikácii referenčných údajov na data.gov.sk sa využijú služby MetaIS pre získanie/pridelenie URI), tak je veľmi dôležité, aby boli publikačné metadáta rovnaké. Zatiaľ to ešte nehorí, ale čoskoro veľmi bude.