Pripomienkovanie: Strategická priorita Open Data

Najprv k dokumentu:

  • strana 3, definicia “Dátový zdroj Pôvodné miesto evidencie datasetu.” -> “Dátový zdroj Pôvodné miesto uloženia resp. sprístupnenia datasetu.” Zrejme je to slovickarenie a nebudem na tom nijak extra trvat, ale datasety sa eviduju na data.gov.sk a data.gov.sk moze, ale nemusi byt zaroven miestom (zdrojom), kde si data stiahnem. Je to len miesto, kde najdem linku na data. Ja teda chapem “datovy zdroj” = “URL cez ktore stiahnem samotne data”.

  • strana 3, definicia “Linked Data”: Opat mozno slovickarenia, ale aby bol koncept (dufam) citatelnejsi aj niekomu dalsiemu nez mne a @liska :slightly_smiling:

    • Použitie HTTP URI, aby sa na objekty mohli ľudia aj pozrieť (pomocou bežného web browseru),
    • Poskytovanie užitočných informácii o objektoch pri ich prezeraní s použitím štandardov (RDF a SPARQL),
    • Poskytovanie referencií na ďalšie URI, aby bolo možné objaviť ďalšie súvisiace objekty. (viď http://www.w3.org/DesignIssues/LinkedData.html)
  • strana 5, defeiicia “Referencovateľný identifikátor”: podobne dovody ako pri definicii “Linked Data”

    Ide identifikátor dátového zdroja, ktorý referencuje samotné údaje, t.j. po zadaní identifikátora do prehliadača je používateľ presmerovaný na samotné údaje dátového zdroja (viď termín “Linked Data”, bod “použitie HTTP URI” a termín „URI“), napr.

  • strana 8: Linked Data su dolezite, ale kvalitu treba riadit aj pre nelinkovane data. A treba ju riadit aj na zaklade spatnej vazby od pouzivatelov. Preto:
    Začnú sa aplikovať nové postupy pre riadenie kvality datasetov a rizík ich publikovania, predovšetkým pre linked dáta” -> “Začnú sa aplikovať nové postupy pre riadenie kvality datasetov a rizík ich publikovania, najmä zohľadnením spätnej väzby od občanov, komunít a podnikov

  • strana 9: “Otvorené údaje (Open Data) predstavujú informácie, ktoré sú voľne dostupné na internete v ľubovoľnom formáte” -> “Otvorené údaje (Open Data) predstavujú informácie, ktoré sú voľne dostupné na internete v otvorenom formáte” lebo proprietarny format je sice tiez “lubovolny” ale nevyhovuje poziadavkam na otvorene udaje (vid Open Definition, vid Vynos 55/2014).

  • strana 11: “Informácia o poskytovaní datasetu otvoreným spôsobom použitia alebo o spôsobe vysporiadania právnych aspektov prístupu k údajom v datasete a ich používania;” -> “Informácia o poskytovaní datasetu otvoreným spôsobom použitia alebo o spôsobe vysporiadania právnych aspektov prístupu k údajom v datasete a ich používania; tzv. licencia” tot aby bolo jasne nazvoslovie a ze to je ta polozka spominana hned o par riadkov nizsie, co sa vyplna na data.gov.sk do metaudajov.

  • strana 11: Za “Pre JSON formát sa vyberie JSON schéma .” navrhujem dopnit aj “Pre RDF formát sa používajú štandardné slovníky a ontológie priamo v datasete, v popise dátovej štruktúry teda sa uvedie jeden vybraný dátový prvok” Tot ked uz v inych castiach dokument zvyrznuje rolu Linked Data, tak necg aj k Linked Data poskytuje nejake relevatne voditko.

  • strana 13: Navrhujem vymenit slovo “triplestore” za “riesenie”. Ono, aktualne triplestore maju problemy skalovat a v inych castiach dokumentu sa operuje s “centralmym uloziskom”. Tak aby toto nebola zamienka na kupenie ci vyvoj nejakeho dalsieho super skalovatelneho ale zaroven super draheho centralneho triplestore.

  • strana 13: Na zaklade napr. verejnej konzultacie ( https://github.com/otvorenavlada/akcnyplan2015/tree/master/uloha-03#vyhodnotenie-dopytu ) navrhujem doplnit:

    • Geografické dáta podľa štandardu INSPIRE (najmä ulice, adresné body, katastrálne informácie, turisticky a inak zaujímavé miesta a územia, atď);
    • Dáta o verejnej doprave,
    • Dáta o životnom prostredí;
    • Dáta o rizikách (kriminalita, a pod.),
    • Dáta obchodného, živnostenského registra a registrov ďalších organizácií,
    • Dáta o vývoji podnikateľského prostredia,
    • Dáta o vývoji v sociálnej oblasti,
    • Dáta o rozpočte a verejných
    • investíciach a verejnom obstarávaní,
    • Dáta zo súdnictva,
    • Štatistické dáta zo ščítania
    • obyvateľstva, domov a bytov,
    • Štatistické dáta o voľbách,
    • Dáta z kultúry.
  • strana 16, do “7.5 Zlepšenie celkovej dostupnosti dát verejnej správy vo forme otvorených udajov” doplnit aj bod “Počet datasetov s riadne uvedenou otvorenou licenciou v katalogu otvorených údajov data.gov.sk na úrovni 100%” a “Počet kladne a korektne vybavených podnetov verejnosti ku kvalite zverejnených údajov vybavených do 30 dní: priemerne aspoň 10 za mesiac za vybraných 12 mesiacov do roku 2020

    • tu je mozno “kontroverzne” slovo “vybranych” ale to tam davam preto, ze sa da ocakavat viac podnetov v zaciatkoch, povedzme v roku 2017, nez ku koncu, v roku 2020 kjed uz budeme mat dufam kvalitu na vysokej urovni. :slightly_smiling:
  • strana 17: “Mať jednoduchý, zrozumiteľný a centrálny prístup ku všetkým otvoreným údajom …” -> “Mať jednoduchý, zrozumiteľný a jednotný prístup ku všetkým otvoreným údajom …” Open Data by mali byt z principu distribuovane a interoperabilita a lahke vyuzitie zabezpecenu jednotnostou (standardami). Centralizacia … je nebezpacna, hlavne ak by bola vynutena a bez vynimiek (o.i. by to teda napr. mohlo nutit RegisterUZ zahodit dobre Open Data API ktore uz maju davno hotove len preto, ze nie je “centralne”).

  • strany 19 a 20: “Open Data Node” a “ODN” su to iste, “Podporna aplikacia” je zalozena na ODN ale nie je to ODN, cize asi by mohla/mala mat skratku “PA”.

  • strana 20: Nejako useknuta veta ci co, navrhujem “Okrem toho, pomocou štandardných nástrojov (transformačný modul, priamy import do katalógu) môže každá povinná osoba do ontologického editora importovať aj slovníky a ontológie vytvorené pomocou iných nástrojov.

  • strana 20: Nejako mi prvy odstsvec v “Transformačný modul” pripada nepresny, navrhujem “Spravuje a vykonáva transformácie z textových formátov, z databázových, Linked Data a iných zdrojov do štruktúr a formátov pre otvorené údaje a následné uloženie výsledkov do centrálneho úložiska. Eviduje typy a postupy transformácií. Slúži na zaradenie rôznych zdrojov údajov do katalógu otvorených údajov. Umožňuje zvyšovanie kvality vstupných dát, obohacovanie datasetu, rozdielové analýzy, vyťažovanie neštruktúrovaných súborov alebo anonymizáciu.

  • strana 21: “Na zabezpečenie týchto funkcionalít budú použité a upravené open source balíky Unified Views, CKAN a iné.” IIRC uz su.

  • strana 21: Do “Riziká súčasného stavu” navrhujem dopnit “Obsah datasetov nebude priebežne a dostatočne rýchlo aktualizovný;” o.i. aj dnesne stretnutie k MDS (vid Modul dotačných schém - verejna cast) naznacuje, ze myslieka “kto, kedy a ako bude udaje aktualizova?” akosi nezvykne ludi bezne napadnut a vyzera ze malokomu z poskytovatelov vadi, ze zvrejnuje datalen obcas a s obrovskym oneskorenim. Raz za rok? Come on … dovtedy chlapik s cudne pridelenou dotaciou bude uz davno na Kajmanoch alebo niekde.

  • strana 22: Nuz a teda do “Strategický prístup k riešeniu” navrhujem riesenie k vyssie uvedenemu:

    • Zabezpečenie, že datasety sú publikované cez portál „data.gov.sk“ a pravidelne aktualizované.
    • Zabezpečenie inkrementálnych riešení pre publikovanie údajov a aplikovanie princípu „proof of concept“
  • strana 22, “Principy” - este stale v duchu predchadzajucich dvoch bodov - navrhujem doplnit bod “Využitie otvorených údajov aj v ISVS” - tot filozofia “eat your own dog food”, aby otvorene udaje nebol len nejaky nezáväzný, hrackarsky, nizko kvalitny vedlajsi vystup ale naopak, aby sa na otrvorene udaje dalo naozaj spolahnut (lebo “vsak aj sam stat ich pouziva”).

  • strana 24: Navrhujem medzi “Sluzby” pridat aj “Zber podnetov občanov k zverejnených datasetom ale aj nezverejneným dátovým zdrojom, ich transparentné a promptné vybavenie ako aj zrozumiteľné a transparetné vyrozumenie o vybavení” Nieco take by uz teda malo byt medzi ziadostami na data.gov.sk, ale dolezite nie je len podanie od obcana, dolezita je aj informacia o tom, ako s podaniami bolo nalozene.

  • strana 26: Aby sa neoperovalo so zargonom ale ako tak ustabilizovanym a uz pouzivanych slovnym spojenim: “Riešenie uľahčí získavanie informácií o menovanom objekte alebo zdroji, pričom sa tieto informácie dajú ľahko parsovať,” -> “Riešenie uľahčí získavanie informácií o menovanom objekte alebo zdroji, pričom sa tieto informácie dajú ľahko strojovo spracovať,

  • strana 28, “Metodika Open Data Ready”: Navrhujem dopnenie “… údajov pod licenciou CC0. Zároveň je dôležité aj uplatnenie princípu „Open Data as Integration Platform“, t.j. aby sa pri budúcej integrácii rôznych ISVS prioritne využívali otvorené údaje a technológie a postupy používané prí ich publikovaní či spracúvaní. Dodržiavanie metodiky …” - tot uz spomenuty princip “eat your own dog food” vyssie

  • strana 28, “Aktualizácia zákona”: “… sa odporúča používať CC0 a následne CC-BY.” -> “… sa odporúča používať CC0 alebo alternatívne CC-BY.” aby to niekto nahodou nepochopil, ze ma uvadzat “CC0 + CC-BY”.

  • strana 29, “Centralny datovy sklad, Aktivity”: Navrhujem doplnenie “Analýza a návrh riešenia, dekomponovanie na menšie iterácie” - tot aby sa nerobili mamutie drahe a dlhe projekty ale naopak, robilo sa iterativne, po mensom.