MIRRI Pracovná skupina K9.4 Lepšie dáta

hanecak · September 26, 2017, 9:51pm

Tiez som sa pri hlasovani na ostanej K9.4 uz zacinal stracat, ale teda v dokumente v0 5_SP_Otvorene_udaje.docx je teraz (26.9.2017, 23:19) v kapitole “2.1.2 Zlepšiť dostupnosť údajov verejnej správy vo forme otvorených údajov” toto:

“Zvýšiť kvalitu publikovaných údajov štátnej správy”

“Podiel datasetov publikovaných minimálne v úrovni kvality 3★ (http://3stardata.info/ ) : 100%”
“Podiel datasetov publikovaných minimálne v úrovni kvality 4★ (http://4stardata.info/) s vysokým potenciálom na znovupoužitie : 90%”
“Podiel datasetov publikovaných minimálne v úrovni kvality 5★ (http://5stardata.info/ ) s vysokým potenciálom na znovupoužitie: 70%”
“Podiel datasetov publikovaných prostredníctvom aplikačného rozhrania (API): 70%”

S takymito cielmi suhlasim.

Upresnenie pojmov:

tyka sa len/primarne “novych datasetov”, t.j. tych ktore vzniknu pocas implementacie novych alebo upgradu existujucich ISVS vramci OPVII (2018-2020)
4* a 5* sa tyka len casti “novych datasetov” (to je to spojenie “s vysokým potenciálom na znovupoužitie”) ktore v kontexte SP Menezment udajov (cast “2.1.5 Prepojené dáta (Linked Data)”) znamena primarne “v rozsahu katalógu dátových prvkov, referenčných registrov, základných číselníkov a entít MetaIS s registráciou daných URI v MetaIS” a mozno niektore dalsie dolezite datasety (zalezitost posudi UPVII resp. centralny datovy kurator … dufajme ze aj nadalej v spolupraci s odbornikmi a verejnostou )

S tym suhlasim (vid https://utopia.sk/wiki/display/opendata/Design+Open+Data+API ). Ale opat este ujasnenie pojmov:

dataset: “ucelená a samostatne použiteľná skupina súvisiacich údajov vytvorených a udržiavaných na určitý účel a uložených spoločne podľa rovnakej schémy” (vid Vynos 55/2014)
- povedane inak a po lopate: najcastejsie “zoznam niecoho”, typicky realizovany ako 1) dump (subor) z nejakej SQL tabulky, obcas ako 2) Open Data API nad SQL DB ci inou “databazou” (a typicky realizovane pomocou REST/JSON)
- priklad dumpov/suborov: Počet zriadených elektronických schránok - Počet zriadených schránok ÚPVS 2020 -data.gov.sk , Vestník verejného obstarávania september 2017 - 189/2017 -data.gov.sk alebo https://data.sazp.sk/dataset/sk-ld-inspire-corine-land-cover/resource/9a2ca676-f27e-42c4-ab83-bfd13dc7be13
Open Data API: jedna z dvoch zakladnych moznosti zverejnovania Open Data datasetov (tou prvou je dump/subor, vid vyssie)
- kedze Open Data, tak “len” read-only
- priklad: API RegisterUZ, rozpocet.sk ci ITMS2014+ alebo https://data.sazp.sk/dataset/sk-ld-inspire-corine-land-cover/resource/a122441c-fcc7-4007-9f37-8c6a0668338b
Open API: “novy koncept”, tu v SR vysledkom najma myslienkovych pochodov v Slovensko.Digital
- mysli sa tym nie read-only Open Data API ale read-write API na G2B ci G2C
- v idealnom pripade G2G API ktore sa s drobnymi upravami spristupni aj non-GOV tretim stranam (na spominane G2B ci G2C)
- priklad: (asi) API el .schranok UPVS pouzite v GovBox

Cize na PS bol IMHO chaos o.i. aj kvoli terminologii, kedy sa (asi) pozabudlo na to, ze pod 3*, 4* a 5* sa primarne myslia suborove dumpy. Kedze v dnesnej dobe bezne robime “multimodalne” (t.j. ta ista vec je dostupna vo viacerych “serializaciach”, typicky HTML, XML a/alebo JSON, zvykne byt pouzity aj HTTP autonegotiation), tak pridanie nejakeho 4* RDF je vcelku trivialne (a 5* je v SP “trochu orezane” na “dolezite veci”, cize nebudu a s nim trapit vsetci a ti co budu, budu to robit v spolupraci s centalnym datovym kuratorom/kancelariou).

Povedane inak, “dumpty su zvycajne lahke” (a ked nie, robi sa Open Data API) a teda vysoke ciele pre nove datasety na urovni 4* by nemali byt rizikom. A vysoke ciele pre 5* su IMHO tiez OK, kedze sa tykaju “uzsieho vyberu dolezitych datasetov”. A vcelku vysoke ciele pre Open Data API su … opat … IMHO OK.

A navzajom sa (zvycajne) nevylucuju. Samozrejme musime uznat, ze ak sa bude robit aj dump aj API (Open Data), tak to bude stat o trochu (ale nie 2x) viac nez keby bolo robene len jedno. Ale kedze balik OPII na Open Data sa rata na urovni 30-60 prip. viac milionov € a ze napr. vcelku komplikovane Open Data API RegisterUZ stalo cca 20 MD, tak by tym rozpocet na Open Data nemal vyrazne trpiet (“trpim” skor pri pohlade na niektore ine polozky v sekciach “projekty” ).