MIRRI Pracovná skupina K9.4 Lepšie dáta

Par mojich poznamok:

  • bolo nahravane, t.j. neskor bude zapis aj nahravka
  • prezentovalo najma MIRRI, bola aj mensia diskusia ku kazdemu s bodov

Stav open data v SR

velka mnozina dat je, ale tazko hlada: su zavesenie “niekde hlboko” na roznych weboch, chyba linka z data.gov.sk na data a pod.

mnoho dat je, ale tazko sa stahuju: neexistuje machine-readable forma → treba robit harvestery

mnoho dat je, ale tazko sa s nimi pracuje: komplikovana struktura, zle formaty datumov ci cisel, atd.

mnoho dat je, ale tazko sa zistuju aktualizacie: malokey su k dispozicii rozhrania, ktore vedia vratit uaje zodpovedajuce dopytu napr. “daj mi vsetko nove ci pozmenene za ostatny tyzden”

o.i. aj kvoli dezinformaciam je dnes naozaj kriticke spristupnovat udaje tak, aby sa dali najst lahko, pochopit lahko, pouzit lahko

“hviezdicky” (5* = cca RDF) v tomto kontexte su nadalej “riesene”, ale nie ako priorita, t.j.

  • v prvom rade ide o to, aby udaje vobec boli zverejnene (takmer akokolvek),
  • kvalita (a aj “hviezdicky”) sa bude doladovat dodatocne
  • 3* ( = cca CSV) su minimum

zlepsenie Open Data v SR sa o.i. bude odvijat od Open Data Maturity Index, kedze su tam dobre metriky a “tah” na realny uzitok

  • ak spravime dobre, mali by sme v rebricku poskocit resp. aspon ziskat lepsie skore
  • ale teda nmajma by mali vdaka tomu byt badatene vysledky

Slovensko.Digital (S.D): ciele pre Open Data su v zasade vcelku jasne, lebo zakon(-y) definguju, co zverejnene byt ma a co nie, tj. “len” treba plnit

  • pri tomto je dolezite robit (datovy) audit, aby z neho bolo zjavne, ako plnime

MV SR oprava: MS SR (spravodlivost): ma na data.gov.sk datasety, ale zatial neeviduju, ze by ich niekto pouzil resp. mal pripomienky → maju pocit, ze investovat do toho je plytvanie, ak teda nie je zaujem ci vyuzitie

MK SR: je to “oxymoron”, ak sa v pripade Open Data bavime o dokumentoch v proprietarnych formatoch → ak udaje nemaju specialny rezim (utajovane a pod.) tak ich treba rovno od zaciatku vytvarat v otvorenych formatoch, aby neskor mohli byt udaje lahko/lahsie vytiahnute a publikovane (ked vznikne na verejnosti dopyt a pod.)

  • tym sa naraza aj na pracovne pomocky na samotnom MIRRI, ktorymi sa o.i. riadia Open Data konkretne, alebo OPII/eGov celkovo: MIRRI bezne vytvara subory v proprietarnych formatoch → nasledne sa z dokumentov tazko vytazuju informacie a pod.

Projekt Open Data 2.0

SU (studia uskutocnitelnosti) je hotova uz davnejsie, dnes sa upresnuju detaily viazane na zaciatok realizacie

cielom nie je mat najslepsie riesnie na svete, ale dosiahnut realny posun vo veciach, ktore nas teraz brzdia (vid vyssie ciel vylepsit nase skore v “maturity index” a pod.)

CZ data portal za ostatne roky velmi pokrocil v klucovych funkcionalitach:

  • dopytovanie metadat
  • harvestovanie lokalnych portalov

konkretnejsie poziadavky budu skompletovane a zavesene niekam do cca tyzdna, budeme pripomienkovat

MZP, …:

  • volakedy sme robili prieskumy najziadanejsich datasetov a nedopadlo to velmi dobre
  • dnes zase mame od EU “high value datasets” a teda ak nechceme zpakovat tie “nie velmi dobre” vysledky, tak treba lepsie uchopit napr. datovy audit, aby bolo lahsie mapovat “prioritne okruhy” na konkretne datasety, z konktretnych ISVS od konkretnych OVM/PO
  • obdobne “publikacne minimum”

S.D: v Maturity index mame “portal features” nad EU priemer, naopak “impact” mame hlboko pod EU priemer

  • t.j. otazka: kolko casu/zdrojov bude MIRRI venovat OD portalu a kolko publikovaniu impaktovych/dolezitych datasetov?
  • navrh: mat financovanie 20:80, t.j. 20% = data.gov.sk a 80% = OVM/PO na datasety a API
  • vid potom to, ako vznika a vylepsuje sa opendata.bratislava.sk
  • implementovat univerzalne ETL zrejme nema zmysel (tot centralne ETL komponenty a pod.), vyplyva z dlhorocnych skusenosti nsprt. v S.D
    • je lahsie a lacnejsie robit “specialne ETL” pre ten ktory datovy zdroj

zrejme MV SR?: zaujimava myslienka lokalneho katalogu

  • OVM si jednoduchcie zmenezuje data vo vlastnom lokalnom katalogu
  • data.gov.sk zharvestuje lokalny katalog

Publikacne minimum statnej spravy

vid MetaIS

nateraz su tam konkretne priklady v XLS

  • presna schema, t.j. zoznam sltpcov, nazvy, formaty stlpcov
  • neskor vyrobia SW (bude Open Source, bude zvrejneny), ktory bude vyrabat ine formaty (CSV, RDF, …)
  • prva vlna = cierne polozky; druha vlna = sede polozky

teraz je priestor na pripomienky

  • o.i. aj jednotlive OVM/PO mozu “konfrontovat”, ci to, co maju, sa “zmesti” do navrhovanych struktur

ma to byt pomocka, vdaka ktorej:

  1. kto nieco publikuje, rovno ma navod ako
  2. kto nieco spracuva, aby vedel lahsie pochopit a pospajat ata

ak niekto povedzme info o zmluvach realizuje cez CRZ, tak sulad s minimom bude realne implementovat CRZ

Publikacne minimum samospravy

prezentovala Alvaria

NKIVS 2016 mala velke ciele do cca 2020, neplnia sa

  • o.i. preto, ze samosprava o Open Data stale takmer nevie
  • a ked vie, tak chyba prehlad: co, preco, ako, …

toto minimum ma napomoct, aby sa tie ciele plnili lahsie tym, ze okument poskytne informaciu otom, co a ako + voditka na sirsi kontext (legislativa, atd.)

dokument vznikal uz aj s pomocou obci a miest, specificky napr. kontrolorov

aby bolo jasne “co a ako”, dokument zacina uz aj mapovanim, ake vsetky povinnosti samosprava ma v kontexte eGov a Open Data

  • vsetko su to exitujuce povinnosti, nie nove, t.j. publ. minimum neprinasa nove povinnosti, len pomaha lepsie sumarizovat existujuce

plus “sprava” z PS Samosprava: okrem “digitalizacie” a “publikovania” sa urcite treba pozriet aj celkovo na optimalizacie procesov a agiend

  • ak sa vyoptimalizuje agenda, ulahci sa jej digitalizacia a budu sa aj lahsie publikovat udaje

pocas lock-down sa lepsie ukazuje, kde vsade a ako by vedeli pomoct zverejnene udaje

dolezity atribut: data su pomenovane aj terminmy, ktore su pouzite v legislative, aby tomu rozumeli nie len obcania, ale aj uradnici

  • pomocka pri intepretacii legislativy

Najziadanejsie datasety

zoznam je priebezne aktualizovany, vid Prieskum najžiadanejších datasetov - B.8 + B.15 - Google Tabellen

opat bude dalsie kolo konzultacie s verejnostou, v spolupraci s USV ROS

  • vysledky ocakavane najneskor 15.3.2021

Ine

Hanecak (a.k.a. “ja”), navrh konkretnej temy na dalsie stretnutie: velmi dosledne podchytit temu datoveho auditu, lebo:

  • chceme oznacit dolezite datasety, ale opakovane obcania hovoria, ze najprv musime vediet, z coho sa da vyberat; tot aby sme neziadali “hluposti” ci “nemozne” resp. “nesli naslepo”
  • chceme mat v NKIS relevatne KPI, tie teda treba opriet o realny zoznam “toho co mame” aby sme si potom mohli presnejsie povedat “z tohto cheme zvrejenit toto” a na tom aj postavit KPI
  • mame tu zaroven od cca 2016 X kol datovych auditov a planov zverejnovania, ktore az tak dobre nedopadli, o.i. lebo 1) aj tak sa malo publikuje a 2) je z toho “guca” XLS (vid teda aj poznamku od MK ohladom udrziavania inforamcii v uzavretych formatoch)
  • mame tu GDPR, a teda ak mame chranit osobne udaje, musime vediet kde a ake mame → datovy audit
  • make tu kyberneticku bezpecnost a (opat) ak mame chranit udaje (a systemy), musime vediet kde a ake citlive data mame → datovy audit

S.D: lepsie zapisy so stretnuti s OVM/PO, aby sa lepsie dalo dodatocne kontrolovat, ci a ako sa plnia dohody zo stretnuti

  • netreba podrobnejsie a urcite nie “dlhsie”, treba najma dobre podchytit konkretne dolezite veci, teda ktore datasety, kedy, kto

?: otazka/podnet k prieskumom ziadanych datasetov: lepsie povedat, co je chcene

  • priklad: Zoznam execkucii - naozaj vsetko? lebo tam su osobne udaje
  • ja: z pohladu komunity tento komentar trafil “bezny zadrhel” pri mnohych doteraisich dopytoch, spojene s tym, ze operujeme zvycajne iba s nazvom systemu ci datasetu, ale nepozname strukturu
    • navrhujem teda k dopytom pripajat aj informaciu o strukture (=zoznam stlpcov), aby sme mali podklad na lepsiu a presnejsiu definiciu toho, co je ziadane
    • typicky ak vopred vieme, ze su v systeme (povedzme zoznsm exekucii) rodne cisla, tak ich rovno nebudeme chciet (alebo budeme, citujuc specificky poziadavku verejneho zaujmi alebo legislativu)
    • naopak, ak nevieme, povieme “vsetko” a nasledne riskujeme “zakopovu vojnu”, lebo OVM/PO sa bude snazit ochranit rodne cisla tym, ze nic neda → problem
2 Likes