Pripomienkovanie: Strategická priorita Open Data

jsuchal · February 10, 2016, 11:36pm

Cielom tejto temy su pripomienky k strategickej priorite Open Data http://informatizacia.sk/ext_dok-07_ea_sp_open_data_v02/22728c

Moje poznamky k open data materialu:

Vybudovanie dátovej kancelárie verejnej správy vnimam ako dobry krok - malo to byt vcera uz hotove
Linkovane resp. referencovatelne identifikatory v datach su velmi ambiciozny ciel.

Nie je mi zrejme co robi ten centralny datovy sklad a centralny katalog. Podla mna to uz dnes vsetko vie (resp. sa tvari ze vie) projekt edemokracia - MOD. Len sa tam prida SPARQL endpoint (ak tam este nie je). S linkovanymi datami ziadny CDS nic nepomoze, kedze tam je problem v cisteni dat, ktora sa musi udiat v zdrojovych registroch. To ci to budu vo finale JSON, triplety alebo XML je trivialna transformacia a implementacny detail.
Z popisu CDS je zrejme, ze to cele treba natlacit do BigQuery a nad tym nieco ako Tableu. Hotove. Nic netreba vyrabat. Nevidim dovod preco by to mal robit stat, ak to chce niekto spracovavat nech si tie data natlaci kam chce ssm.
Data zo samosprav cez DCOM su zaujimave.
Open API - Toto je velmi podcenene. Open API je nadmnozinou Open Data. (Open Data su read-only a verejne, Open API je v klude aj write aj neverejne)

Ocakaval by som, ze sa tu pristupi k tomu s rovnakym dorazom - teda zavedenie resp. pridanie kompetencii pre “Dátovu kanceláriu verejnej správy” prave pre spristupnovanie identifikaciu prioritnych API. Vsetko co tam je k Open Data sa da vztiahnut aj na Open API. Z pohladu inovativnych aplikacii je to IMHO ovela dolezitejsie ako open data. Rovnako by sa malo udiat taketo rozsirenie aj pre “Centrálna kapacita pre koordináciu a dohľad nad publikovaním otvorených údajov”.

Z tohto nie je zrejme, ze co to vlastne bude. Vytvarat Open API nad open data je minimalne divna formulacia.

Vase postrehy?

jsuchal · February 11, 2016, 12:03am

Toto su ciste vanity metrics. Aj keď na počet pripadov kedy vdaka obcianskej iniciative boli zablokovane neefektivne investicie sa fakt tesim.

Prilisny tlak na vynutenie 5* urovne kvality moze sposobit, ze velmi prioritne datasety (ahoj kataster) sa nebudu zverejnovat vobec, lebo by kazili statistiku. Pocet stiahnuti je vanity metric. Zbytocne.

Z mojho pohladu jediny sposob ako dosiahnut kvalitne open data/api je model eat your own dogfood a teda, ze aj IS VS budu pouzivat rovnake API ako verejnost, bez vynimok.

filip · February 11, 2016, 9:38am

K eat your own dogfood odporucam precitat tento dlhy rant: https://plus.google.com/+RipRowan/posts/eVeouesvaVX

hanecak · February 12, 2016, 3:59pm

Najprv k dokumentu:

strana 3, definicia “Dátový zdroj Pôvodné miesto evidencie datasetu.” -> “Dátový zdroj Pôvodné miesto uloženia resp. sprístupnenia datasetu.” Zrejme je to slovickarenie a nebudem na tom nijak extra trvat, ale datasety sa eviduju na data.gov.sk a data.gov.sk moze, ale nemusi byt zaroven miestom (zdrojom), kde si data stiahnem. Je to len miesto, kde najdem linku na data. Ja teda chapem “datovy zdroj” = “URL cez ktore stiahnem samotne data”.
strana 3, definicia “Linked Data”: Opat mozno slovickarenia, ale aby bol koncept (dufam) citatelnejsi aj niekomu dalsiemu nez mne a @liska
- …
- Použitie HTTP URI, aby sa na objekty mohli ľudia aj pozrieť (pomocou bežného web browseru),
- Poskytovanie užitočných informácii o objektoch pri ich prezeraní s použitím štandardov (RDF a SPARQL),
- Poskytovanie referencií na ďalšie URI, aby bolo možné objaviť ďalšie súvisiace objekty. (viď http://www.w3.org/DesignIssues/LinkedData.html)
strana 5, defeiicia “Referencovateľný identifikátor”: podobne dovody ako pri definicii “Linked Data”

“Ide identifikátor dátového zdroja, ktorý referencuje samotné údaje, t.j. po zadaní identifikátora do prehliadača je používateľ presmerovaný na samotné údaje dátového zdroja (viď termín “Linked Data”, bod “použitie HTTP URI” a termín „URI“), napr.”
strana 8: Linked Data su dolezite, ale kvalitu treba riadit aj pre nelinkovane data. A treba ju riadit aj na zaklade spatnej vazby od pouzivatelov. Preto:
“Začnú sa aplikovať nové postupy pre riadenie kvality datasetov a rizík ich publikovania, predovšetkým pre linked dáta” -> “Začnú sa aplikovať nové postupy pre riadenie kvality datasetov a rizík ich publikovania, najmä zohľadnením spätnej väzby od občanov, komunít a podnikov”
strana 9: “Otvorené údaje (Open Data) predstavujú informácie, ktoré sú voľne dostupné na internete v ľubovoľnom formáte” -> “Otvorené údaje (Open Data) predstavujú informácie, ktoré sú voľne dostupné na internete v otvorenom formáte” lebo proprietarny format je sice tiez “lubovolny” ale nevyhovuje poziadavkam na otvorene udaje (vid Open Definition, vid Vynos 55/2014).
strana 11: “Informácia o poskytovaní datasetu otvoreným spôsobom použitia alebo o spôsobe vysporiadania právnych aspektov prístupu k údajom v datasete a ich používania;” -> “Informácia o poskytovaní datasetu otvoreným spôsobom použitia alebo o spôsobe vysporiadania právnych aspektov prístupu k údajom v datasete a ich používania; tzv. licencia” tot aby bolo jasne nazvoslovie a ze to je ta polozka spominana hned o par riadkov nizsie, co sa vyplna na data.gov.sk do metaudajov.
strana 11: Za “Pre JSON formát sa vyberie JSON schéma .” navrhujem dopnit aj “Pre RDF formát sa používajú štandardné slovníky a ontológie priamo v datasete, v popise dátovej štruktúry teda sa uvedie jeden vybraný dátový prvok” Tot ked uz v inych castiach dokument zvyrznuje rolu Linked Data, tak necg aj k Linked Data poskytuje nejake relevatne voditko.
strana 13: Navrhujem vymenit slovo “triplestore” za “riesenie”. Ono, aktualne triplestore maju problemy skalovat a v inych castiach dokumentu sa operuje s “centralmym uloziskom”. Tak aby toto nebola zamienka na kupenie ci vyvoj nejakeho dalsieho super skalovatelneho ale zaroven super draheho centralneho triplestore.
strana 13: Na zaklade napr. verejnej konzultacie ( https://github.com/otvorenavlada/akcnyplan2015/tree/master/uloha-03#vyhodnotenie-dopytu ) navrhujem doplnit:
- Geografické dáta podľa štandardu INSPIRE (najmä ulice, adresné body, katastrálne informácie, turisticky a inak zaujímavé miesta a územia, atď);
- Dáta o verejnej doprave,
- Dáta o životnom prostredí;
- Dáta o rizikách (kriminalita, a pod.),
- Dáta obchodného, živnostenského registra a registrov ďalších organizácií,
- Dáta o vývoji podnikateľského prostredia,
- Dáta o vývoji v sociálnej oblasti,
- Dáta o rozpočte a verejných
- investíciach a verejnom obstarávaní,
- Dáta zo súdnictva,
- Štatistické dáta zo ščítania
- obyvateľstva, domov a bytov,
- Štatistické dáta o voľbách,
- Dáta z kultúry.
strana 16, do “7.5 Zlepšenie celkovej dostupnosti dát verejnej správy vo forme otvorených udajov” doplnit aj bod “Počet datasetov s riadne uvedenou otvorenou licenciou v katalogu otvorených údajov data.gov.sk na úrovni 100%” a “Počet kladne a korektne vybavených podnetov verejnosti ku kvalite zverejnených údajov vybavených do 30 dní: priemerne aspoň 10 za mesiac za vybraných 12 mesiacov do roku 2020”
- tu je mozno “kontroverzne” slovo “vybranych” ale to tam davam preto, ze sa da ocakavat viac podnetov v zaciatkoch, povedzme v roku 2017, nez ku koncu, v roku 2020 kjed uz budeme mat dufam kvalitu na vysokej urovni.
strana 17: “Mať jednoduchý, zrozumiteľný a centrálny prístup ku všetkým otvoreným údajom …” -> “Mať jednoduchý, zrozumiteľný a jednotný prístup ku všetkým otvoreným údajom …” Open Data by mali byt z principu distribuovane a interoperabilita a lahke vyuzitie zabezpecenu jednotnostou (standardami). Centralizacia … je nebezpacna, hlavne ak by bola vynutena a bez vynimiek (o.i. by to teda napr. mohlo nutit RegisterUZ zahodit dobre Open Data API ktore uz maju davno hotove len preto, ze nie je “centralne”).
strany 19 a 20: “Open Data Node” a “ODN” su to iste, “Podporna aplikacia” je zalozena na ODN ale nie je to ODN, cize asi by mohla/mala mat skratku “PA”.
strana 20: Nejako useknuta veta ci co, navrhujem “Okrem toho, pomocou štandardných nástrojov (transformačný modul, priamy import do katalógu) môže každá povinná osoba do ontologického editora importovať aj slovníky a ontológie vytvorené pomocou iných nástrojov.”
strana 20: Nejako mi prvy odstsvec v “Transformačný modul” pripada nepresny, navrhujem “Spravuje a vykonáva transformácie z textových formátov, z databázových, Linked Data a iných zdrojov do štruktúr a formátov pre otvorené údaje a následné uloženie výsledkov do centrálneho úložiska. Eviduje typy a postupy transformácií. Slúži na zaradenie rôznych zdrojov údajov do katalógu otvorených údajov. Umožňuje zvyšovanie kvality vstupných dát, obohacovanie datasetu, rozdielové analýzy, vyťažovanie neštruktúrovaných súborov alebo anonymizáciu.”
strana 21: “Na zabezpečenie týchto funkcionalít budú použité a upravené open source balíky Unified Views, CKAN a iné.” IIRC uz su.
strana 21: Do “Riziká súčasného stavu” navrhujem dopnit “Obsah datasetov nebude priebežne a dostatočne rýchlo aktualizovný;” o.i. aj dnesne stretnutie k MDS (vid Modul dotačných schém - verejna cast) naznacuje, ze myslieka “kto, kedy a ako bude udaje aktualizova?” akosi nezvykne ludi bezne napadnut a vyzera ze malokomu z poskytovatelov vadi, ze zvrejnuje datalen obcas a s obrovskym oneskorenim. Raz za rok? Come on … dovtedy chlapik s cudne pridelenou dotaciou bude uz davno na Kajmanoch alebo niekde.
strana 22: Nuz a teda do “Strategický prístup k riešeniu” navrhujem riesenie k vyssie uvedenemu:
- Zabezpečenie, že datasety sú publikované cez portál „data.gov.sk“ a pravidelne aktualizované.
- Zabezpečenie inkrementálnych riešení pre publikovanie údajov a aplikovanie princípu „proof of concept“
strana 22, “Principy” - este stale v duchu predchadzajucich dvoch bodov - navrhujem doplnit bod “Využitie otvorených údajov aj v ISVS” - tot filozofia “eat your own dog food”, aby otvorene udaje nebol len nejaky nezáväzný, hrackarsky, nizko kvalitny vedlajsi vystup ale naopak, aby sa na otrvorene udaje dalo naozaj spolahnut (lebo “vsak aj sam stat ich pouziva”).
strana 24: Navrhujem medzi “Sluzby” pridat aj “Zber podnetov občanov k zverejnených datasetom ale aj nezverejneným dátovým zdrojom, ich transparentné a promptné vybavenie ako aj zrozumiteľné a transparetné vyrozumenie o vybavení” Nieco take by uz teda malo byt medzi ziadostami na data.gov.sk, ale dolezite nie je len podanie od obcana, dolezita je aj informacia o tom, ako s podaniami bolo nalozene.
strana 26: Aby sa neoperovalo so zargonom ale ako tak ustabilizovanym a uz pouzivanych slovnym spojenim: “Riešenie uľahčí získavanie informácií o menovanom objekte alebo zdroji, pričom sa tieto informácie dajú ľahko parsovať,” -> “Riešenie uľahčí získavanie informácií o menovanom objekte alebo zdroji, pričom sa tieto informácie dajú ľahko strojovo spracovať,”
strana 28, “Metodika Open Data Ready”: Navrhujem dopnenie “… údajov pod licenciou CC0. Zároveň je dôležité aj uplatnenie princípu „Open Data as Integration Platform“, t.j. aby sa pri budúcej integrácii rôznych ISVS prioritne využívali otvorené údaje a technológie a postupy používané prí ich publikovaní či spracúvaní. Dodržiavanie metodiky …” - tot uz spomenuty princip “eat your own dog food” vyssie
strana 28, “Aktualizácia zákona”: “… sa odporúča používať CC0 a následne CC-BY.” -> “… sa odporúča používať CC0 alebo alternatívne CC-BY.” aby to niekto nahodou nepochopil, ze ma uvadzat “CC0 + CC-BY”.
strana 29, “Centralny datovy sklad, Aktivity”: Navrhujem doplnenie “Analýza a návrh riešenia, dekomponovanie na menšie iterácie” - tot aby sa nerobili mamutie drahe a dlhe projekty ale naopak, robilo sa iterativne, po mensom.

hanecak · February 12, 2016, 4:16pm

Centralny katalog je myslim jasny a dolezity: Aby niekto nepublikoval otvorene udaje “potajme” (su na webe, ale nikto nevie na akom URL), je vo Vynose 55/2014 definovana povinnost vsetky datasety registrovat na data.gov.sk . Tot aby sa dali najst.

Centralny datovy sklad, to uz je ina vec. Podla mna je to “relikt stareho zmyslania” z cias, ked sa najprv agenda z PC stahovala na servery, servery potom do serverovni, nasledne do datovych centier a potom do Cloudu. Open Data je decentralizovane (data publikuje ich “master”, nie “centrala”) a teda …

… lebo takto by to malo byt aj podla mna.

Ale su aj relevatne use-cases:

male PO nemaju vlastne servery, nuz mozu publikovat cez centralne ulozisko
vela PO publikuje ciastkove datasety (napr. rozpocty), NASES moze na centralnom ulozisku data zliat dokopy a poskytovat dalej vcelku (aby obcan nemusel tahat a spajat 3000 tabuliek)
…

Takze sme este pred spustanim eDem debatili a zasadny uspech je to, ze CDS nie je “povinny” (ako by bolo “logicke” pri aplikovani “stareho zmyslania” a ako navrhovali niektori navrhovatelia projektu). Tot napr. aby RegisterUZ nemusel zahodit existujuce Open Data API len preto, ze nie je “centralne” (tu uz som pisal).

Suhlasim s tymto a aj s tym, co z toho vyplyva. (Ja osobne som to takto implicitne chapal asi vzdy a Open Data bral ako prvy krocik k Open API, ale som to nepovedal. Cize je fajn, ze @Lubor uz pristupil k explicitnemu pomenovaniu dalsieho evolucneho kroku ).

+1 s doplnkom: Ak verejna sprava zverejni CSV, Linked Data uz z toho moze spravit hocikto (NASES, @liska, …). Ak nezverejni nic (lebo sa boji resp. nezvlada 5*), tak … nikto nic uz s tym nespravi. Cize ano, 5* nemusi byt priorita.

+1

janhargas · February 16, 2016, 9:21pm

Konsolidovane pripomienky k NKIVS (tomu stresnemu dokumentu) su tu: https://docs.google.com/document/d/1osKeaMejoENaCZT_7IoWS125riiBHz3OqiVsaFPTv_4/edit?usp=sharing

Zajtra rozbehneme podpisovanie hromadnej pripomienky.