Podpisovanie OpenData?

Tak pokial sa predchadzajuce verzie premazavaju tak to tazko bez podpisu dokazes, ze to co mas v db nebol tvoj podvrh. Napriklad my stahujeme dlznikov vszp. Lenze tie datasety nemaju historiu na webe vszp. Ked sa pride niekto stazovat, tak som bez podpisu hotovy.

1 Like

@jsuchal Z toho mi ale vyplyva, ze nie niektore ale zavazne vsetky by mali byt podpisane aby sa ten problem odstranil tak?

Alternativna moznost robit LTS (long term support) datasety kde je garantovana dlhodoba napr. raz za mesiac backup s 10 rocnou garantovanou dostupnostou a STS (short term support) datasety kde je garantovana dostupnost povedzme 6 mesiacov

Hovoris mi z duse. :grinning:

Aj to je riesenie. Ale pocitaj s tym, ze ked ja mam niekde system (napr. spravy registratury), ktory pouziva sucasne povedzme 500 klientov a kde kazdy klient kazdu chvilu klikne lebo potrebuje otvorit formular a system sa pripoji ku kniznici formularov a stahuje si od tial data zakazdym klikom, potom zase iny uzivaelia kliknu na nieco ine co tiez bude komunikovat so slovensko.sk, napr. koli nejakemu datasetu tak ta komunikacia bude v ramci celeho slovenska obrovska, a pri tom ide iba o udaje, ktore si kludne mozem skladovat u seba ak dokazem uzivatelovi preukazat ich hodnovernost sposobom, ktory on nicim nespochybni. Cize da sa to v realnom case takto riesit, ale nie je to ono, komunikacia s servermi slovensko.sk bude zbytocne velka. Druhy argument moze byt aj to ze nie vsetci klienti z tych vsetkych maju pristup k internetu…

1 Like

Vratme sa znova spat.

  1. Bud sa bude podpisovat vsetko, alebo to nie je vseobecne riesenie problemu ale len nesystematicke platanie. Kludne nech sa vsetko podpisuje a podpisovat to moze data.gov.sk vzdy pri uploade datasetu. Je to legitimne riesenie
  2. Riesenie o ktorom hovorim ja tj. datasety LTS a STS
    a) sluzba na validaciu, ci je distribucia validna
    b) ake je URI platnej distribucie pre dany dataset
    c) odkedy dokedy je platna dana distribucia
    d) notifikacna sluzba, ktora sa zavesi na dataset a ked pribudne nova distribucia datasetu tak sa notifikuje pouzivatel
    Ak sa bavime o formularoch tak na to je specificky modul elektronickych formularov MEF a nie data.gov.sk. MEF ide rovnakou cestou akou popisujem v tomto bode tj. validita sa vytiahne von z meta.xml a budu sluzby ktore budu vracat veci ktore som popisal. Takto to bolo odsuhlasene na PS1. Preto formulare nie su tak priklad pre OpenData ktory hladame. Bavme sa o RPO, o zozname dlznikov VSZP tj. velkych datach, ktore nikto nestahuje 100x za den.
    Dalsia vec je ze hovorime o otvorenych datach a nie o sluzbach a tomu treba prisposobit aj pouzivanie. Osobne si myslim ze distribucia datasetu sa ma stahovat LEN ak je nova a nacachovat v systeme a nie ze sa pri kazdom volani stahuje. Ved to nedava zmysel. Ako by to dopadlo ak by si niekto tahal kazdu chvilu cele RPO lebo uzivatel klikol na zoznam vsetkych firiem. Hadam by si to k sebe stahoval a aktualizoval na notifikaciu a nie donekonecna stahoval. Taketo spravanie velmi rychlo bude viest k tomu ze bud sa taketo spravanie spoplatni, alebo to bloknu ako kataster kde mozes spravit request pomaly raz za minutu. Co sa tyka overovanie ci je dataset validny cez sluzbu, tak podla mna toto vie byt velmi rychle a pouzivatel si moze velmi rychlo overit platnost a nemusi stale tahat cele datasety, ale len vtedy ked to realne potrebuje. Takze pri normalnom pouzivani podla mna nehrozi to co popisujes. Argument bez internetu moc nechapem. Ako to v tom pripade funguje? Stiiahne si to z overeneho zdroja a musi neustale overovat ze ci to naozaj stiahol z overeneho zdroja aj ked to spravil len raz za rok a potom bol cely cas offline? Aky je usecase a ako sa to vtedy pouziva?
  3. Tretia moznost je spominany blockchain, kde to bude transparentne ako oci, doveryhodne a vsetko mozne. Otazka je ze co takato vec bude stat, ako som ale spominal uz sa to zacina rozsirovat ale uz zo zakladneho popisu technologie je zrejme ze to nebude stat jednotky tisic eur. Legitimna alternativa to ale urcite je.

@miromr Vidis okrem tohto zhrnutia dalsiu alternativu? Bavme sa len o systemovych rieseniach tj. ak podpisovanie tak prikazom. Osobne si myslim ze sa dokonca bod 1 a 2 nevylucuju. Tretia moznost je uplna zmena konceptu prace s datami, ale aj ona je riesenim

Prihovaram sa za podpisovanie vsetkych datasetov. Tie volania do internetu po kazdom kliknuti som daval iba ako priklad s tym ze uz teraz zbytocne komunikujeme ci uz s data.gov.sk alebo slovensko.sk to je jedno.
Ak budem mat u seba dataset, ktory je zapecateny, nebudem uz potrebovat do vydania dalsieho komunikovat s data.gov.sk.
Blockchain zabezopeci integritu na strane vydavatela, tam podla mna staci zaistit rezim a opatrenia aby nedoslo k neziaducej modifikacii. Snazim sa povedat ze dataset po jeho stiahnuti do takehoto systemu nadalej zije svojim zivotom, a ze po uplynuti nejakej doby niekdy aj mesiacov ci rokov sa k nemu potrebujeme vratit. V tejto dobe uz data.gov.sk obsahuje data v uplne inom stave. Cize hovorim o potrebe nie na rozhrani data.gov.sk - uzivatel, ale aplikacia tretej strany a jej uzivatelia.
My by sme potrebovali, aby my-vyrobcovia aplikacii co pouzivame tieto data vo svojich aplikaciach aby my sme mohli poskytnut nasim klientom istotu, ktora nebude zalozena iba na nasom tvrdeni ze data po stiahnuti nijak nemenime. Naviac nam to pomoze tak ako som pisal udrziavat nase ciselniky v stave, ktory bude najlepsie zodpovedat skustocnemu stavu aj s evidenciou zmien v urcitom casovom rozsahu do minulosti.

Zajtra by malo byt posledne zasadnutie skupiny K9.4(pred hlasovanim o OpenData priorite) ktora momentalne otvorene udaje uzatvara a chce o nich dat hlasovat. Mozem otvorit tuto temu priamo tam aby sa to dostalo aj do strategickej priority pre otvorone data.

Aby to bolo uniformne, podpisovanie by prebiehalo priamo na strane data.gov.sk, ktore by to publikovalo. Ak to ma byt pouzitelne, tak ako pisal @Lubor bolo by dobre aby boli ako podpisane tak aj nepodpisane verzie datasetu nakolko nie kazdy potrebuje podpisany subor a zbytocne by sme ho do toho nutili. To ktory pouzivatel chce by si sam vyriesil prostrednictvom parametrov dereferenciacie. Suhlasia s tym aj ostatni resp. vidia aj dalsiu alternativu, ktora by bola mozno este lepsia? @jsuchal @hanecak @Lubor @liska @stefan.szilva

Blockchain je o integrite na strane vydavatela, ale tym padom je mozne vzdy zvalidovat ze co mam u seba stiahnute voci referencnemu stavu, ktory sa “nestraca” a je nemenna, takze aj tato alternativa ten problem cela riesi.

K tomu podpisovaniu. Ako sa bude riesit prepeciatkovavanie? Bude sa to tlacit do dlhodobeho uloziska? Je to pripravene na gigabajtove subory?

Blockchain tuto podla mna vela neriesi, kedze tam bude rovnaky problem s prepeciatkovavanim. Ked dnes podpisem trebars aj sha256 nejakeho datasetu a ulozim to blockchainu tak o par rokov to bude zlomene ako sha1 a nikto mi neuveri, ze ten dataset nie je podvrh. A sme tam kde sme boli.

Toto by sme nemali unahlit a nedomysliet.

Podpisovať všetko je hlúposť mrhanie zdrojmi.
Nikto nepotrebuje overovať autenticitu datasetu “dovody odmietnutia hovoru LTV 112 za rok 2016” a ďalšej väčšiny DS.
(Pôvodne som chcel dať linku na obľúbený Výkaz o uskladnení jabĺk a hrušiek, ale ÚKSÚP má rozbité linky. @Silvi ? )
Tak ako je to uvedené v schválenej stratégii pre OpenData, vytvorme možnosť podpisovať dataset - pokiaľ si pamätám, toto aj bolo v rámci eDemokracie implementované. Ktoré datasety má zmysel podpisovať sa dá zistiť veľmi jednoducho, na základe požiadaviek od používateľov.

Bohužiaľ nie. Znova opakujem, je kategória používateľov, ktorí hľadajú guľatú pečiatku, alebo niečo jej podobné. Kto a čím garantuje, že nejaký API endpoint publikuje správne údaje? Možno stačí podpísaný dokument, kde je to deklarované. Alebo nejaká právna analýza, ktorá povie že ho netreba.
Ono pri API sú aj ďalšie otázky, napr. aké sú parametre dostupnosti, kapacity atď., skrátka SLA? Ako je zaistené, že zajtra, o mesiac, o rok to API stále funguje?

Podpis datasetu (s časovou pečiatkou) garantuje iba kedy došlo k publikovaniu údajov. Aká je platnosť, účinnosť údajov, na aké časové obdobie sa vzťahujú atď., to musí byť vyjadrené inde - v metadátach, v údajoch samotných, alebo v sprievodnom dokumente.

Áno, toto na data.gov.sk je spravené, teda je to štandardná funkčnosť CKAN. Dá sa použiť CKAN API na získanie histórie revízií datasetu (a zmeny zisťovať pravidelným dotazovaním), alebo nechať si posielať notifikácie o revíziách - na to treba byť prihlásený (eID :disappointed:) a pri datasete kliknúť na veľavravné tlačítko “Odoberať”.

Takato informacia mi je podla mna uplne nanic.

EDIT: Teda nanic to nie je, pokial to je podpis zarucujuci aj integritu samotnych dat. Moja vytka k prepodpisovaniu stale ostava.

Problem je ze kto bude rozhodovat o tom ze to musi byt podpisane? Povedzme ze som novinar a v clanku odkazujem na ten dataset. Ked ho mam u seba ale nie podpisany tak vlastne to nema asi ziadnu vypovednu hodnotu.

Takze ten podpis by tym padom nedaval data.gov.sk ale ten kto to vypublikovava a casova peciatka by ale bola z datumu vypublikovania tak?

Ako sa prepodpisovanie riesi teraz tj. mimo otvorenych udajov? Nie je na to definovany ziaden mechanizmus resp. v nejake priorite alebo PS o bezpecnosti sa to neriesilo?

Bolo naimplementovane ze sa vedel uploadnut podpisany dataset alebo ze samotny portal to mohol podpisat? Aky bol ucel ak to podpisal data.gov.sk ak to nema az taku pridanu hodnotu bez overenia integrity samotnych dat?

Hlavna otazka preto znie, podpisuje niekto v EU alebo USA datasety? Ak ano ako to robia? Podpisuje vobec niekto tie data?

Modul dlhodobeho uchovavania na UPVS.

Neviem ci to vidim celkom spravne. Ja sa na to pozeram tak, ze open datasety su “kopiami” nejakych konkretnych ciselnikov spravovanych statom. Preto nutnost ich dlhodobej uschovy nebude potrebne riesit. Mozno by stacilo mat k dispozicii na stiahnutie zapecatene datasety za jeden rok do zadu, ak by si niekto opomenul stiahnut nejaku konkretnu verziu. Ak by certifikat v casovej peciatke platil vzdy niekolko rokov od doby vydania datasetu nebolo by potrebne nic prepodpisovavat a v dobe kedy su udaje potrebne sa da vsetko overit.

To je aka doba? 1,2 alebo 20 rokov?

Ak by certifikat casovej peciatky mal platnost vzdy povedzme 5 rokov, tak 5 rokov netreba predlzovat podpis.
Ale ak by certifikat casovej peciatky koncil 27.12.2017 ako tomu bolo nedavno na slovensko.sk potom sa treba zaoberat aj touto otazkou hned po stiahnuti.

mozno sa mylim, ale nie je to nahodou tak, ze ak spochybnis SHA256 tak si vlastne odstrelil aj cele podpisovanie (PKI)?
da sa vobec nieco bez hash?

Ááa, prosím neotvárajme tu opäť tieto klasické témy o ZEPe. Prepečiatkovanie pre datasety by som vôbec neriešil, štandardne certifikáty by mali mať platnosť zopár rokov, potom to vlastník údajov môže podpísať opäť.

Uz vidim ako taka vszp prepeciatkovava zoznam dlznikov, ktory zo zakona nemusi nikde ani drzat a vlastne ho ani nema. Netvrdim, ze toto treba, ved nakoniec kto chce, by si mohol ten dataset ulozit to prepeciatkovavacieho uloziska aj sam.

Neviem čo myslíš že ho vlastne ani nemá. “Podľa § 25 ods.1 písm. f) bod 2 zákona č. 580/2004 Z. z. je zdravotná poisťovňa povinná uverejňovať a aktualizovať vždy k 20. dňu v kalendárnom mesiaci na internete zoznam dlžníkov.”

V tomto prípade stačí mať podpísaný posledný, čiže aktuálny, zoznam dlžníkov. Skutočne nie je dôvod aby si poisťovňa držala na webe archív zoznamu dlžníkov (dokonca by to bolo protizákonné, lebo osobné údaje).

To stačí producentovi alebo konzumentovi, ktorému príde tesne po vypršaní podpisu žaloba od niekoho, kto bude tvrdiť že dlžníkom nebol?