V prvom rade vdaka za priebezne informacie. Nizsie budem pripadne asi viac kritizovat nez chvalit, ale aby sa teda nezabudlo, ze samotnu existenciu priebezneho otvoreneho informovania vnimam velmi pozitivne.
Open Source beriem ako samozrejmost, najma ked si spomenul “tisicky MD”, lebo:
-
ako Open Source bol/je robeny aj OD1.0, vid napr. GitHub - nases-sk/eDemokracia-MOD a microcomp · GitHub
-
“zdrojový kód vytvorený počas projektu bude otvorený v súlade s licenčnými podmienkami verejnej softvérovej licencie Európskej únie podľa osobitného predpisu,18) a to v rozsahu, v akom zverejnenie tohto kódu nemôže byť zneužité na činnosť smerujúcu k narušeniu alebo k zničeniu informačného systému verejnej správy,”, vid 95/2019 Z.z. - Zákon o informačných technológiách ... - SLOV-LEX
plus:
Zaratali ste aj migraciu obsahu? Tot data.gov.sk obsahuje aktualne 2554 datasetov, neviem kolko “resources”, zaregistrovanych je 92 organizacii a Y uzivatelov. A aj nejake data, napr. Register Adries.
Tu ozrejmim skor pre ostanych (=ini nez MIRRI a NASES) ze teda centralne ulozisko uz v OD1.0 bolo myslene ako “vec na ulahcenie, nie povinnost”, t.j. bolo a nadalej je chcene, aby sa publikovalo primarne priamo zo zdroja, ked sa da (vid napr. RegisterUZ ako optimalny priklad). Centralne ulozisko je pre pripady, ked “sa neda” resp. je centralne ulozisko efektivnejsou alternativou (prikladom nech je napr. uz spomenuty Register Adries, pri ktorom MV SR vyhodnotilo moznost “vypublikujeme sami” ako “neda sa” a tak to robi pre nich NASES cez ulozisko na data.gov.sk).
Scenar “interne kapacity MIRRI/NASES vezmu Open Source zdrojaky z CR a nasadia, pripadne si z CR (MFF UK) zaplatia drobny support a development” resp. nieco podobne, to by sme urcite chceli viaceri. Potom ale samozrejme bude namietat nejaky slovensky dodavatel, ze jeho riesenie nebolo ani len zvazovane … Cim sa dostavame k problemu “verejne obstaravanie” a na to su mnohe ine vlakna tu na platforme. Nazor mam, ale dalsej debaty k obstaravaniu sa zdrzim.
Len teda vidiac vymenu, tak napisem, ako to vnimam ja, ze co asi MIRRI ide sutazit: “Tuna mame nejake zdrojaky a k nim dokumentaciu, ponuknite nam, za kolko to rozbehate.” Dufam, ze sa nebude obstaravat stylom “Kukneme, co je v CZ zrojakoch, vypiseme vlastnosti a funkcie a to dame do VO”, lebo tu by bolo riziko, ze niekto ponuknte re-implementaciu CZ riesenia, co bude drahsie ale z titulu roznych cudnych zakuti vo VO by aj mohlo vyhrat, ergo namiesto uspory mrhanie.
Uz od cias OD1.0 je navrhom ze (zjednodusene) “az tak velmi netreba, ale ked uz, tak skratka podpisat cez eID”. Ak by niekoho napadol block-chain, tak vid GitHub - milankowww/ckan2blockchain: Push dataset hashes to public blockchain for increased transparency. . Typicky scenar “paranoikov” (resp. tych, co by potrebovbali byt pravne kryty) by bol “periodicky stahovat dataset aj s podpisom prip. aj casovou peciatkou a tlacit napr. na verejny git” a ked pride na lamanie chleba, tak sa da demonstrovat, ze “toto sme stiahli vtedy a vtedy a podpisal to tento a tento subjekt VS”.
Priklad, realne z Viedne: Apka na parkovanie je 3rd party, zoznam platenych miest su Open Data mesta. A nastal zadrhel: apka povedala cloveku “tu je to zadarmo”, prisiel ale policajt, realne zadarmo nebolo, clovek dostal pokutu. Kedze sa bavime o trosku civilizovanejsej Viedni, nie SR, tak vec po internom presetreni uzavreli tak, ze identifikovali chybu v toku dat “mesto->3rd party apky” a danemu cloveku pokutu mesto odpustilo. V SR by sme zrejme museli ist sli cestou konfrontacie (lebo VS zvycajne na pokus c. 1 zodpovednost odmietne) a teda autor apky potrebuje dokazat, ze v danom case jeho apka vydala stanovisko na zaklade takych a takych dat od mesta.
Takuto garanciu v CR nemaju, ale budu mat, v systeme “verejny datovy fond” co je zjednodusene obdoba naseho CSRU. Pointa ale je, ze to je ciastocne separatny datovy tok: data by mali byt tie iste, ale tecu “zabezpecenymi kanalmi” vramci G2G. Ref.:
Tu sa stotoznim, ze teda (odhliadnuc od sposobu obstarania) je technicka implementacia skor trivialna, lebo …
… problem s Open Data v SR je najma tu: metodicka a dalsia podpora, kedze povinnosti zverejnovat su definovane vcelku rozsiahlo, aj potrebne a dlhe roky. Ale typicky samosprava ani dnes netusi, co to vlastne je a ako sa to robi. A ked sa aj obratia na “gestorov” (typicky MV SR ci MIRRI), tak sa im pomoci nedostane.
+1, to potvrdili aj ludia zo samospravy.
Co ludia casto pytaju a nie je, to je dolezita metrika. Len sa tazko realizuje,
Naopak pocet downloadov sa implementuje lahko, ale je to skor “na nic”. Vezmime si povedzme Ekosystem.Slovensko.Digital a hypoteticku situaciu, ze by SU ratal downloady. Nuz, naratal by ich malo, lebo realne “pouzitie” je az za Ekosystemom, a teda ratali by len “par hitov mesacne” od servera Slovenko.Digital napriek tomu, ze Ekosystem by mal tisice ci miliony pouzivatelov.
Na zaver este vsuvka k debate “data vs. metadata”, lebo teda za ostanych 5-10 rokov to nie je prvy krat, ze sa v tom zamotava diskusia. Jeden, moj pohlad (a slovickarenie si dufam odpustime, podchytenie ma byt najma v Metodikach MIRRI, nie tu v diskusiach):
- dataset: mnozina udajov, typicky v jednom tabulkovom subore, niekedy dostupne aj/iba cez API
- Vyhlaska to definuje ako “datasetom ucelená a samostatne použiteľná skupina súvisiacich údajov vytvorených a udržiavaných na určitý účel, uložených spoločne podľa rovnakej schémy a poskytovaných prostredníctvom súboru alebo aplikačného rozhrania”, vid 78/2020 Z.z. - Vyhláška Úradu podpredsedu vlády Sl... - SLOV-LEX
- priklad 1: https://data.gov.sk/datastore/dump/b89a3dd3-0398-41bc-8c55-5a17617247ea?all=true (to je download linka pre “RA - Vchody - konsolidované dáta” na Register Adries - Register vchodov (orientačných čísiel) - Vchody - konsolidované dáta -data.gov.sk )
- priklad 2: Oficiálny zdroj informácií o finančnom hospodárení podnikov | registeruz.sk (tot “base URL” pre API RUZ, vid RÚZ Open API | registeruz.sk )
- o tomto zvycajne hovori “bezny clovek” ked mysli “dataset”
- zaznam o datasete na data.gov.sk: popis datasetu: nazov, detailnejsi popis, URL na samotne data, autor, kontakt, datum aktualizacie, …
- priklad: https://data.gov.sk/dataset/register-adries-register-vchodov
- to je ta vec, ktoru zvycajne najdeme ako prvu, ked hladame nejake data
- metadata: tot tie udaje, ktore popisuju udaje = to, co obsahuje “zaznam o datasete”, vid vyssie
- o tomto zvycajne hovori datovy kurator napr. data.gov.sk aj ked pouzije slovo “dataset”
Dump ci API na data je samozrejme to hlavne o co ide. Ale ked uz mame stovky a viac datasetov v data.gov.sk, tak ma zmysel cielene pracovat aj s metadatami a mat povedzme aj API na metadata. (Moze ale nemusi to byt RDF/SPARQL.) Len teda nezamienat data a metadata.
(A aby som to zamiesal: vramci SPARQL endpointu by sa kludne dalo spravit, ze sa zmiesaju RDF data popisujuce datasety s RDF datami samotnych 4* ci 5* datasetov. T.j. jedno API pre data aj metadata. Cool, ale zaroven mozno matuce. Miro uz vysvetlil, ze pod SPARLQ v tejto diskusii mysli najma to API na metadata.)