Par poznamok z dalsieho stretnutia/zasadnutia/telefonatu/… PS1 zo dna 3.11.2022:
Program
- Otvorenie zasadnutia
- Otvorené formálne štandardy
- Aktualizácia ontológií centrálneho dátového modelu
- Metodika klasifikácie a kategorizácie dát s ohľadom na potreby posudzovania poskytovania cloudových služieb XSD
- Rôzne
- Záver zasadnutia
centralny datovy model: objednavky, zmluvy, faktury
tyka sa najma publikacneho minima: objednavky, zmluvy, faktury
nove prvky pre format RDF
kedze PS nebola uznasaniaschopna, tak sa o navrhu nehlasovalo
- bude neskor on-line/per-rollam
centralny datovy model: elektronicky uradny dokument, …
datove prvky pre popis el. dokumentov
pracuje sa aj na navrhu medzisystemoveho identifikatora FO
metodika … cloud sluzieb
vychadza z existujucich materialov:
- NBU: c. 362/2018 Z.z.
- CR
PS len berie na vedomie
navrh noveho znenia prilohy c. 5 Vyhlasky 78/2020
metadata otovrenych udajov
- metaudaje = popis datasetov
- t.j. netyka sa samotnych udajov/datasetov …
- … ale su to informacie zverejnovane o datasetoch na data.gov.sk
co je nove: DCAT-AP 2.0 + aj vo verzii (resp. s pridavkami pre) SK
- DCAT-AP 2.0 je EU standard
- DCAT-AP-SK 2.0 su specificke pridavky pre SR
- inspirovane DCAT-AP-CZ
o.i. upresnenie ohladom distribucii datasetu: rozne distribucie musia byt tie iste data, len iny format
vdaka novemu standardu sa o.i. planujeme dopracovat k stavu, ked institucie s vlastnym datovym katalogom (napr. Magistrat Bratislava, …) nebudu musiet spravovat svoje datasety domo (t.j. raz u seba a druha krat na data.gov.sk)
- po novom, vdaka standardu, bude data.gov.sk (NKOD = narodny katalog otvorenych dat) moct harvestovat (=automaticky synchronizovat) popisy datasetov z lokalnych katalogov (LKOD = lokalny katalog otvorenych dat)
- data samotne ostavaju kde su, t.j. ak na data.gov.sk kliknem na “download”, stahovat budem z https://opendata.bratislava.sk/
zaroven sa zlepsi interoperabilita s EU OD katalogom
dalsim praktickym dopadom bude aj lahsie vyhladavanie datasetov
- kedze priebezne pribudaju, je postupne tazsie a tazsie sa v nich vyznat a najst ten spravny, najma ak mame “len” polozky typu “titulok” a “popis”
- podrobnejsie popisne udaje (metaudaje) a presnejsia organizacia datasetov a zdrojov teda zlepsia orientaciu
- zaroven bude na vyhladavanie datasetov dostupny SPARQL endpoint
- Q: OpenAPI?
- pocita sa najma so SPARQL endpoint = kompletna funkcionalita
- len pre par vybranych sluzieb/use-cases bude implementovane API podla “OpenAPI spec.”
nasledna implementacia standardy v NKOD (t.j. novy data.gov.sk) a LKOD (existujuce alebo nove katalogy OVM) by mala zlepsit hodnotenie SR v medzinarodnych OD a DESI rebrickoch
opendata.gov.sk: obsahuje metodiky k pouzivaniu data.gov.sk
- vid teda “automatizovana katalogizacia” (zrejme Školenie: OD02 - Automatizovaná katalogizácia otvorených dát do NKOD - Metodika pre otvorené údaje (opendata.gov.sk) - Confluence )
dalsie detaily budu na PS “Open Data, datovi kuratori”
(medzicasom bezi vyvoj noveho data.gov.sk)
ref.:
- vyhlaska (aktualne platna): 78/2020 Z.z. - Vyhláška Úradu podpredsedu vlády Sl... - SLOV-LEX
- priloha (aktualne platna): https://www.slov-lex.sk/pravne-predpisy/prilohy/SK/ZZ/2020/78/20220101_5232576-4.pdf
- priloha (novy navrh): GitHub & BitBucket HTML Preview
navrh na upravu miesta zdriadenia repozitara zdroj. kodov
aktualne zakon ITVS hovori o data.gov.sk
- v case navrhu nic lepsie nebolo
medzicasom vsak:
- data.gov.sk prechadza vylepsovanim a ujasnovanim
- “standardy” (v zahranici) idu inde: code.gov, …
- logika: kedze kod nie je uplne to iste ako data (v niecom podobne, v niecom uplne ine)
“udaje” → data.gov.sk
“kod” → code.gov.sk (to, ci presne takto, to je este vecou debaty)
metodicky portal k tejto teme: https://opencode.gov.sk
dolezite bude, aby nad vyzdielanymi kodmi priamo prebiehal vyvoj (t.j. aby to nebolu mrtve obstarozne snapshot-y)
- novy data.gov sa sa uz vyvyja, vid Dátová kancelária · GitHub
vid potom dataset “Otvorene zdrojove kody ISVS”, napr. Otvorené zdrojové kódy ISVS (2022-09-28) - Datasety -data.gov.sk
- nateraz "len tabulka:
- neskor sa z tohto stane novy “portal”, t.j. repozitar zdrojovych kodov, aby sa lahsie hladalo, lahsie so zdroj. kodmi pracovalo, atd.
implementacia je este v stadiu riesenia:
- code.gov.sk? gitlab.com/xxx-sk ? …?
par mojich poznamok povedla:
K metadatam dam priklad, kedze ako sa o tom behom rokov debati, tak sa stale zvykne stat, ze nie je jasne, co sa mysli datami a co metadatami. Priklad:
- medata: Zoznam poslancov pre 8. volebné obdobie - Datasety -data.gov.sk + Zoznam poslancov pre 8. volebné obdobie - Zoznam poslancov pre 8. volebné obdobie -data.gov.sk - pricom toto je v “human readable” HTML formate (inde cez API sa da dostat aj k strojovo spracovatelnym metaudajom)
- t.j. vsetky tie polozky typu titulok, popis, licencia, datum poslednej aktualizacie, URL na samotne data, atd.
- data: https://www.nrsr.sk/opendata/1/sk/MP/MembersOfParliament?termNr=8
- t.j. uz samotne informacie/data/udaje o tom, akych mame poslancov v 8. volebnom obobi, v strojovo-spracovatelnom JSON formate
Chytak: V momente, ked zacneme pracovat s metaudajmi v strojovej forme (analytika typu “kolko ame datasetov a v akych formatoch”, …), tak sa tie metaudaje stavaju udajmi.
K datasetom a distribuciam dam tiez priklad: Mame datasety a v datasetoch mame distribucie. Po starom dost volne (doteraz chybalo usmernenie), t.j. do distribucii sa davaju ci uz ine data alebo tie iste data len v inom formate, priapdne okoncia nieco dalsie. Nuz a po novom rozne distribucie musia byt tie iste data, len iny format. T.j. napr. data za ine obdobie nebude moct byt nova distribucia v existujucom datasete, ale bude to novy dataset s novou distribuciou.
- niekedy, po starom:
- dataset: Udaje o XYZ
- distribucia: za 2020, CSV
- distribucia: za 2020, RDF
- distribucia: za 2021, CSV
- dataset: Udaje o XYZ
- po novom:
- dataset: Udaje o XYZ za 2020
- distribucia: za 2020, CSV
- distribucia: za 2020, RDF
- dataset: Udaje o XYZ za 2021
- distribucia: za 2021, CSV
- dataset: Udaje o XYZ za 2020
Typicky to tyka napr. tohto: https://data.gov.sk/dataset/register-adries-ra-zmenove-davky
- aktualne sa tam kumuluju pod jednym datasetom zmenove davky cca denne, ako zdroje
- po novom ma pre kazdu novu zmenovu davku vzniknut novy dataset
- naopak, konsolidovane verzie (t.j. “current snapshot”, napr. Register Adries - Register vchodov (orientačných čísiel) - Vchody - konsolidované dáta -data.gov.sk) ostavaju bezo zmeny