Komisia pre štandardy ISVS - PS1

K 6.7.2017 boli projate tieto tri navrhy formou distancneho hlasovania:

  1. došpecifikovanie URI identifikátora pre elektronické formuláre, pre ich XML menný priestor, prislúchajúce XSD schémy a ich prepojenie aj s príkladmi (https://metais.finance.gov.sk/standardization/votedetail/4)
  2. dereferenciácia URI identifikátorov (https://metais.finance.gov.sk/standardization/votedetail/5)
  3. pôsob, akým vytvárať verzionovateľné URI entity (https://metais.finance.gov.sk/standardization/votedetail/6)

Dnes tiez pribudol zapis z pokracovania 2. stretnutia PS1, ktore teda pokracovalo 26.5.2017: https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23167152

1 Like

15.8.2016 sa konalo 4. zasadnutie PS1:

  • Dereferenciácia pre jednotlivé súbory e-formulára a iné
  • Codelist element
  • Metodika tvorby XSD schém
  • Témy z PS6 - na vyjadrenie PS1
  • Prepojenie XSD schém na centrálny model údajov
  • Drobné opravy sémantických dátových štandardov
  • Novela Výnosu (Opatrenie) o jednotnom formáte elektronických správ + Schémy správ Sk-Talk

Viac informacii: https://wiki.finance.gov.sk/display/PS1/4.+Zasadnutie+PS1

1 Like

Do najbližšieho balíka schvaľovania na PS1 chystáme predložiť nasledovný bod zo Sémantických dátových štandardov

A.4.5 Publikácia otvorených údajov

ktoré vychádzajú s návrhu v dokumente SP Otvorené údaje. Tento bod je tu viac rozpracovaný, a sú zobrazené najmä príklady pre jednotlivé úrovne. Ako príklad sú použité meteorologické dáta, podobne ako je to prezentované na http://5stardata.info/en/.

Príklady úrovní interoperability:
Úroveň 1★ (doc, pdf)
Úroveň 2★ (xls)
Úroveň 3★ (xml, ods, csv)
Úroveň 4★ (rdf, owl)
Úroveň 5★ (rdf, owl)

Okrem rozdielov medzi jednotlivými úrovňami si na týchto príkladoch si všimnite najmä

Vidím tam viacero zásadných problémov:

  • formáty pre 4 a 5 ★: v súčasných štandardoch je pre tieto úrovne určený aj “plain” formát XML, a z pohľadu používateľov je zásadné aby to tak aj zostalo
  • na úrovni 4 ★ treba konkretizovať, že URI má byť použité na špecifikáciu entít ktoré ho majú pridelené, pretože “akýchkoľvek” je skrátka nereálne
  • pred schvaľovaním mechanizmu dereferenciácie žiadam aby bolo vyčíslené koľko táto sranda bude stáť, ak sa má uplatniť plošne

Kompletny navrh je mozne citat tu (zatial je to nie je final, ale na 95% hej), kde je formatov podstatne viac a vychadzaju z definicie europeandataportal, kde su jednotlive formaty uvedene : https://wiki.finance.gov.sk/pages/viewpage.action?pageId=23986522 tj. ziadnu specifikaciu sme si samy nevymysleli len sme ju prebrali z EU.

Definicia 4 a 5 hviezdiciek co sa tyka udajov je takisto definovana naspodku tejto stranky : https://wiki.finance.gov.sk/pages/viewpage.action?pageId=16416799

Dereferenciacia je definovana tu a bola uz na standardizacii aj schvalena a aj na zaklade tvojich pripomienok: https://wiki.finance.gov.sk/pages/viewpage.action?pageId=20023176
V standarde je popisany aj cely mechanizmus ako to ma fungovat, takze je si mozne spravit aj prehlad kolko to cca bude stat -> 1x definicia redirectu z data.gov.sk na MetaIS, upravenie liniek na MetaIS aby splnali ten refid predpis, vytvorenie stranok v MetaIS, ktore ma nastarosti MetaIS (datove prvky, sluzby, …) resp. redirect v pripade tretich stran (rpo, rfo…). Tie si to robia ale vo svojej rezii. Ak mas navrh na zlepsenie tak ho kludne predloz a mozeme to na zasadnuti PS1 prejst a popripade zapracovat.

1 Like

@Lubor, každopádne som rád, že si sa ozval aspoň Ty, už som si myslel že tam máte nejakého bobríka mlčanlivosti na tému LinkedData :slight_smile:

LinkedData tlačí najmä Európska Únia, a ja som rád, že máme niečo takéto spoločné. Že ju vôbec môžem takto, hoc neoficiálne zastupovať. Som presvedčený, že táto idea posunie slovenskú informatiku strašne dopredu, samozrejme nevyrieši jej všetky problémy, ale bez idei Centrálneho dátového modelu a jednotných URI na entity, sa nedostaneme nikde. A to je jasné samozrejme aj bez Európskej Únie. Veď ako môžu spolupracovať centrálne dáta (základné registre, publikačné minimum samosprávy ), tj. referenčné údaje ak nebudú zdielať jednotlivé entity a Centrálny model údajov?

Veď predsa, ten dnešný stav je nevyhovujúci. V súčasnosti existuju rôzne prípady viacerých rôznych rezortných identifikátorov na rovnaké veci, a dáta spolu nesúvisia, keď si zoberiem nejaký dataset od polície a dataset od ministerstva financií, tak ak ich chcem spojiť a urobiť či už dátovú analýzu, alebo službu za tým, tak ich musím integrovať. Toto stojí obrovské peniaze, jednak udržiavať takýto nevyhovujúci stav, a navyše ho treba robiť stále nanovo.

Neviem čo tým myslím že “v súčasných štandardoch”, ale bohužiaľ (resp. bohuvďaka), 5Star open data je metodika pre otvorené dáta, ktorá sa používa napr. Európskou komisiou v rôznych oblastiach (napr. aj pri Európskom portále otvorených údajov), a využívajú ju takmer všetky portály sveta (data.gov, data.gov.uk) pričom všade je tendencia ísť na LinkedData (5*), takáto metodika je len jedna. A štandard je to preto, aby si to nevymýšlal každý podľa seba, pretože potom sa celá vec minie účinku. :wink:

Veď preto, sa upravili skôr pravidlá interoperability, tj. že všetky nové a inovované datasety budú 5*, a tie, kde nie sú peniaze na rozvoj, musia byť miminálne 3*. A toto sa dá ešte upresniť ďalšími opatreniami, ako napr. “prechodné obdobia” a podobne.

obrázok

a presne takto je teraz zapracované do štandardov na PS1
A.4.5.1 Úrovne interoperability otvorených údajov

Dovoľ mi teda otázku?

  • Je podľa teba potrebný centrálny model údajov verejnej správy a URI identifikátory alebo nie, aby sa dosiahla požadovaná interoperabilita údajov jednotlivých základných registrov (najvyššia kvalita údajov pre strojové spracovanie)? Alebo celé toto divadlo, ktoré hrá aj Európska Únia, resp. 5* Open data je blbosť, a vskutočnosti nám nič také netreba.

  • Možno že máš problémy s možnou neefektivitou použitia verejných zdrojov, že to bude realizovať niekto, kto si uleje peniaze, a nič sa z toho neurobí? Ak áno, tak poďme spolu nájsť riešenie, ako to urobiť čo najefektívnejšie. Veď to by som asi neprežil, že sa konečne pohne informatika správnym smerom a potom sa peniaze rozkradnú. Myslíš že pre toto tu ako pako celé tie roky vypisujem, chodím na pracovné skupiny, do zahraničia na konferencie, aby som si ulial nejaké peniaze? Stále žijem od výplaty k výplate, a to aj zostane, už som s tým zmierený a som oslobodený. :high_brightness:

2 Likes

Na poslednom stretnutí K9.2 sme sa celá skupina dostala k návrhu od NASESu “Metodika k časovému harmonogramu vytvárania a sprístupňovania datasetov”, ktorý priznám sa neviem kedy plánujú zverejniť :innocent:, pretože čím skôr sa veci zverejnia, tým lepšie. Ja si dovolím zverejniť opravu kvality údajov.

Definovanie úrovne kvality podľa 5* open data je interpretovaná nesprávne ako
obrázok

4★ úroveň nie je „Referencovateľné identifikátory“, ale je to použitie RDF (na obrázku vyššie) – Use RDF to denote things – a to je použitie RDF (URI) na všetko (objekty sveta, dátové prvky, číselníky, kódy, datasety …). Nejde o „pridanie stĺpca URI“ do excelu a je všetko vyriešené. To by muselo mať všetko v exceli URI. A pre prehľadnosť byť sa postupne excelovská štruktúra by sa zmenila na trojice. A na to je správny formát RDF. :wink:

Rozdiel medzi 4★ a 5★ je v tom, že 4★ dáta sa “nemapujú na ostatné entity”, pričom iný dataset ich môže referencovať. 5★ entity tvoria centrálne dáta (referenčné údaje, referenčné registre, publikačné minimum samosprávy,atď), a tieto sa referencovať musia. Tj. Centrálny model údajov verejnej správy, ktorý je už schválený na PS1 patrí na 5★.

Tu rozhodne odporúčam použiť štandardný oficiálny obrázok a nie vlastný.

2 Likes

Nič v zlom, … ale takto nejako si predstavujem “boj” a prácu hlavného dátového architekta Slovenskej štátnej správy. @liska nahrad ! Kto sa pridá ? (pre mňa poučenie: nemýľ si OpenData a OpenAPI !)

2 Likes

Co si ja pamatam (aj ked teda pozor, moja pamat ma daleko k 100% spolahlivosti), tak cokolvek je napisane vo Vynose, tak okrem “level 0” (ktorym sme asi narazali na animak Kung-fu panda: “now there is level zero:slight_smile: ) by to mal byt “1 k 1” prepis 5stardata.info . Ak ten prepis vo Vynose dnes chapeme “akosi inak”, mame sa opat vratit k 5stardata.info ako etalonu, kedze necheme udrizavat SK1*, SK2*, atd. Co v zasade v aktualnych PS1 navrhoch robime, cize malo by byt OK.

Tohoto sa bojim aj ja. Ale toto nevieme velmi ovplyvnit ani v PS1 & spol., ani v K9.4 & spol. To skor na tych verejnych hearingoch v studiam uskutocnitelnosti alerbo na Pochodoch proti korupcii. Resp. skratka inou protikorupcnou aktivitou. Toto uz totiz nie je cisto IT ramec.

+1

Sudiac podla debaty vo vlakne ITAS poskytne odborníkov pre ÚPVII tych zaujimcov (aspon teda tych, co pojdu “na blazna/dobrodinca”, t.j. napriamo ako statny zamestnanec za statny plat) nebude vela. T.j. ak boj, tak (prepytujem) medzi “blaznami/dobrodincami” a " ITAS-om". :slight_smile:

1 Like

Podľa 5stardata: ★★★★ use URIs to denote things, so that people can point at your stuff
Obrázok je správny.
A URI je treba použiť iba tam kde to má zmysel.
Robme veci tak, aby z toho bol najväčší úžitok.
Ináč je to Linked Data džihád.

1 Like

Na oficálnom obrázku je RDF, nie URI identifikátory. A to je veľký rozdiel. Môže dôsť k nesprávnej interpretácii. Keď si pozriem, do toho NASESáckeho dokumentu, ďalej je vysvetlené že:

Už som to písal vyššie, ale ďakujem že to môžem ešte inak vysvetliť. Všimni si, že zrazu už hovoríš o CSV, čo je formát pre úroveň 3★, a presne preto na oficiálnom obrázku je RDF. :slight_smile:

A RDF je v podstate slovník na popisovanie zdrojov na internete, ale všetkých! RDF je aj na popis dátových prvkov (triedy, vlastnosti), aj popis číselníkov, datasetov, čo konktrétnych entít (organizácií, ulíc, atď). To je to “use URIs to denote things, so that people can point at your stuff”. Čiže nedá sa len jednoducho pridať stĺpec s URI. To by muselo byť URI všade. A toto je presne úloha RDF.

Pozrime sa na príklad úrovne 4★ priamo na oficiálnom webe:

krásne RDFko, tj. jednoduchý formát trojíc (tvoriacich graf), čo je v podstate veľmi jednoduché ale brutálne efektívne.

Súhlasím. Ale neohýbajme štandard preto, aby sa znížilo použitie RDFiek na Slovensku, skôr hľadajme presne ako si povedal: správny účel použitia. Ja nie som za totálne prejdenie na LinkedData všade okamžite (slovensko.sk má iné problémy ), OK, ale v prípade dát je to podľa mňa kľúčové. Centrálny model údajov a identifikátory entít potrebujeme tak či onak, na tom postaviť 1xdosť, a publikovať open data. A to sa samozrejme dohodlo, že to platí len pre nové publikované údaje, ktoré budú financované v rámci projektov. Označiť toto ako džihád s tým, že je to v agende aj Európskej komisie je myslím je dosť prehnané. Alebo všetko čo robíte Vy je tiež džihád? Asi nie.

Každopádne, ako si to predstavuješ, že “aby bol z toho úžitok”. Možno nakoniec zistíme, že sme úplne zjednotení. :innocent:

1 Like

Tak opat budem brzda a poviem nieco zase z praxe, hlavne teda k tomu co tu pise potencialny buduci byvaly hlavny datovy architekt SR.

  1. @lubor nema pravdu, ze 4* neznamenaju RDF. RDF naozaj znamena pouzit format tripletov = cize nie CSV. (ak si odmyslime uplne haluzne publikovanie tripletov v CSV).
  2. @lubor ma pravdu, ze toto vynucovat by bola chyba = linked data dzihad.

Teraz podrobnejsie:

  1. Roky sa tu robia hodnotiace rebricky stavu open data na slovensku. Hlavna vytka vzdy bola, ze nie su dostupne klucove datasety a data ako take. Nasledne je problem neuplnost/chybovost dat. Neviem ako vy, ale ja som vobec nikde nikdy nezachytil, ze by sa niekto z praxe (napr. finstat, indexpodnikatela, …) stazoval na to, ze “jeeezis to by bolo super keby sme mali toto v tripletoch”. Poziadavka na RDF tu jednoducho v praxi neexistuje, ale pochadza zo slonovinovej veze.
  2. RDF je extremne NEefektivny format. Pokial nechceme nanutit vsetkym pouzivanie triplestorov, (co dufam nechceme, lebo to sa osobne pojdem opasat bombami pred buducu kancelariu hlavneho datoveho architekta SR), tak toto skomplikuje zivot vsetkym. Konkretne - predstavme si ako tak vyzera import dat z triplestoru do nejake databazy (lebo nechceme vsetkym nanutit RDF, ze?) a ako by to vyzeralo zo suboru co obsahuje triplety. Pri CSV/JSON… natiahnem riadok/zaznam a ulozim do DB a hotovo (mam konzistentnu db), pri triplestore pokial nemam zarucene usporiadanie (co nemam), tak musim vsetko ulozit do pamate. Proste predstava, ze spravim nejaky efektivny - v case konzistentny streamovany import (uplne bezna a nutna vec) je iluzia.

Velmi sa bojim, ze tlacenie na 4* bude mat za nasledok zverejnovanie a vyuzivanie mensieho poctu otvorenych dat, lebo to jednoducho sposobuje netrivialne problemy nielen pre konzumentov ale aj producentov. Nezamienajme si tu prosim ciele a nastroje na dosiahnutie ciela. Cielom je mat co najviac dat, ktore sa budu vyuzivat co najviac a budu linkovane (prepojene medzi sebou). Mam za to, ze tlacit na triple formaty a RDF je cesta proti tomuto cielu.

Za ovela pragmatickejsi ciel povazujem nieco ako JSON-LD. JSON je praxou a miliardami APIciek overeny format. JSON-LD k nemu pridava standard ako odkazovat na ine zdroje. To co navrhuje @lubor je nieco ako “CSV-LD” a povazujem to za ovela jednoduchsie riesenie ako pre konzumentov tak pre producentov ako trvat na RDF. Kategorizaciu 5star data povazujem za fajn, ale prave v tomto bode za nedomyslenu, kedze JSON-LD sa tam nejako rozumne neda napasovat.

Pre kratky vylet do rozmyslania preco JSON-LD vzniklo odporucam http://manu.sporny.org/2014/json-ld-origins-2/ - velmi to pripomina tuto diskusiu.

2 Likes

Preco tolko hate a navodzovania paniky ze nieco sa tu tlaci co nikto nechce. Tlaci na to EU a su na to W3C standardy v zaujme interoperability vramci EU to musime mat. A nakolko je EU aj sponzorom, myslim si ze jej treba vyjst v ustrety vo veciach co oni chcu. Mozeme na to ist aj systemom ze teraz to budeme robit v rozpore aby sme si potom mohli spravit dalsich N integracnych a zmenovych projektov. Svoj postoj preto adresuj aj ludom z W3C popripade ludom z EU, ISA, SEMIC a spol. a povedz im ze ich prirucka na otvorene udaje je zla a Slovensko.Digital sa nepaci : https://www.europeandataportal.eu/sites/default/files/goldbook.pdf alebo https://joinup.ec.europa.eu/sites/default/files/D4.3.2_Case_Study_Linked_Data_eGov.pdf alebo Data on the Web Best Practices.

Uprimne chcem aby to vyslo co najlepsie a nakonci budeme lidry v integracii a kvalite otvorenych udajov. Fakt nemame mat za tie peniaze skoro ziadne ciele? Je podla teba o tolko narocnejsie ked programator bude musiet vyplnat RDF/XML (JSON-LD), kde ma strukturu predpripravenu ako ked by si musel vymyslat vlastnu XML schemu? (ak je zaujem tak rad ukazem rozdiel v java kode)

Naozaj sa Vam bude viac pacit ked bude vznikat vela integracnych projektov po 2020 ked sa to uz v tomto moze spravit poriadne? Je to nejaky problem pre Vas ekosystem alebo biznis model? Chceme za ten giganticky balik penazi od IT firiem shit? Ja rozumiem skepsy z minulych obdobi, ale ked sa im da guideline tak to potom bude narocnejsie pokazit a ten uz existuje a neustale sa zdokonaluje predtym ako sa cokolvek spusti aby sa nezacala informatizacia ala divoky zapad, ale aby tie veci boli dopredu specifikovane a bol maly manevrovaci priestor pre spekulantov.

Vynucovanie triplestores - preco sirit dezinformacie o povinnosti triplestores? Kde je takato podmienka, ciel definovany ked uz siri ze sa ides priviazat o budovu s bombou? Na verejnosti je navodzovany dojem ako kebyze sa tu ide nieco zbytocne znasilnovat bez realneho zakladu. Ciel je komunikacia na rozhraniach a publikacia dat vo vysokej kvalite. Kazdy nech si to robi interne ako chce, ale vsetko co ide von musi mat nejaku stabnu kulturu. Myslim si ze tento postoj dobre poznas lebo uz niekolko krat sme sa o tom ci uz osobne alebo aj tu na fore, kde sa viac krat hovorilo ze vsade triplestore je hlupost a to nikto ani nespochybnuje a nechce. Ak to niekto bude v tom style tlacit, tak sa s tebou o tu budovu mozem priviazat ;).

Je to sice len tvoja domnienka ze ich bude potom menej a ja sa na to pozrem skorej z opacneho hladiska tj. je naozaj toto ta bariera a nie su problemy aj ine ako v tom ze programator dostane inu sablonu outputu do suboru?
Robime co sa da aby to nenastalo, tlacime aby ovela viac sa venovalo propagacii a chodenie po uradoch, skoleniach aby to publikovali a ked to uz budu robit tak nech to robia poriadne. Sam vediem timovy projekt na FIIT aby ta konverzia bola aj pre bezneho uradnika co najjednoduchsia a s minimalnym efortom dostaneme naozaj kvalitne data.

Tie ciele na publikaciu su len pre NOVE ALEBO INOVOVANE SYSTEMY platene z verejnych zdrojov a fondov a zaroven ide len o NOVE DATASETY a datasety “S VYSOKYM POTENCIALOM ZNOVUPOUZITIA”(referencne registre, referencne data a klucove centralne registre,…) o com bude rozhodovat datova kancelaria. Takze existuje mechanizmus, ktory to dokaze ustrazit v rozumnych medziach a verim ze je to mozne povazovat za systematicke zvysovanie kvality udajov co je podla mna taky doplnok k Vasmu zaberu na kvantitu a nie protipol.

S JSON-LD podla mna nikto nebude mat problem pretoze ako je presne aj v JSON-LD specifikacii pomenovany vztah JSON-LD vs RDF.

JSON-LD is a concrete RDF syntax as described in [RDF11-CONCEPTS].
RDF 1.1 Concepts and Abstract Syntax

Ak ma byt preto svar len preto ze to nieje explicitne napisane v tej tabulke ako mozny output format, tak sa prvy hlasim nech sa to tam doplni. Celkovo si treba uvedomit ze je to len serializacny format. RDF ako taky je tiez serializovane do RDF/XML, TRIG, TRIX, TURTLE a n dalsich a JSON-LD moze byt kludne jeden z nich. Takze toto verim ze takisto nebude problem. Schemu a data ale treba popisovat jednoznacnymi identifikatormi a Centralnym modelom udajov. Nemoze sa predsa stat ze štát nebude vediet kde ma ake udaje na konci tohto obdobia a zhodneme sa ze jednoznacne identifikatory schemy (Centralny model udajov) tento problem riesia.

Ked lubor ukeca W3C na CSV-LD tak za take riesenie zdvihnem ruku dovtedy som zasadne proti. Vy sami ste najvacsi kritici ked nieco nejde podla standardov a ohybaju sa veci len pre SK verzie, tak ked je nieco vymyslene, nedovolme si ohybat veci tak ze to bude potom nekompatibilne s cely svetom.

2 Likes

cital som si diskusiu, aj ked sa tu pise o dzihade, panike a hate, mne sa to zda byt v ramci moznosti(a reality) diskusnych for celkom vecna diskusia. Dokonca by som povedal, ze konecne sa nejake odborne veci riesia aj takto otvorene (viac menej open source systemom, tam tiez su mailing listy a casto si nedavaju servitku pred usta, ale vo vacsine pripadov to funguje).
A teraz vecne:)
Podla mna je poziadavka, aby projekty financovane z EU v ramci OPII poskytovali data v vo vyssej kvalite celko opravnena. Ved lacne to nie je, takze ciele mozu byt aj vyssie. Tak isto komunikacia cez integracne rozhrania tak, aby tam vzdy bolo URI je podla mna na mieste, myslim si, ze z dlhodobeho hladiska to vela veci zjednodusi.
Z diskusie som pochopil ze nikto nebrani zverejnovaniu datasetov mensej kvality, ide len o to, ze ked je to OPII projekt, tak nech to spravi v lepsej kvalite.
A zase treba mat nejaku viziu, aby sme boli v niecom najlepsi, ked uz do toho ide tolko penazi, minimalne sa o nejake liderstvo treba pokusit. Mozno budeme raz prikladom ako estonci…

Co sa tyka tripletov, tu som sa trochu stratil (mozno preto si aj nerozumiete, lebo mam pocit ze sa tu tvrdi viac menej to iste, len inou recou). @jsuchal a @lubor hovoria, ze na triplety nie je objednavka. @msurek hovori, ze triplety standardy sa nevyzaduju (teda okrem OPII projektov), cize ste v sulade, ci sa mylim?
No a argument, ze na triplety nie je objednavka je sice relevantny, ale to iste sa da povedat aj o mnozstve open dat, pokial nie su, nikto ich nechce, ale ked uz su, tak sa vyuziju (skoro ako vajce a sliepka). A neviem kolko to je namahy navyse spravit taky triplet, ale verim ze nie vela. Ci?

3 Likes

Práveže, linked data sú určené aj pre tých, ktorí nechcú takpovediac s tripletami nič mať.

Napr. taká Mestská časť Bratislava - Staré mesto.

1) Klasik pozrie a vidí XML

Dokonca sa ani nemusí zaoberať, že 1., 2., 4., 5. vlastnosť je odvodená z toho že sa jedná o mestskú časť (čo je to skvelé pre analytiku/dopytovanie, resp. na vyhľadávanie). A dokonca, je to aj celkom čitateľné a univerzálne :wink:

2) Realista zas vidí HTML (obrázky su so zlinkovanej Slovakiany)

3) A iba kto chce, si pozrie dáta sémanticky. A následne sa môže vydať na tour de graf.

obrázok

Vo formáte problém nevidím. Skôr challenge bude udržať jednodný dátový model a URI. Ale bez tohto budovať čokoľvek zmysluplné s verejnými dátami nemá význam. Používanie predpísaných URI, tj. 5* úroveň je zameraná na centrálne dáta (referenčné dáta, centrálne registre, DCOM, MetaIS), preto si myslím že je to dosiahnuteľne riešiteľné.

Myslím že je to zatiaľ najlepšia stratégia. To že to tlačí EÚ teraz ani neriešim (hoc čoskoro postnem pár tisíc riadkov EÚ štandardov). :innocent:

Chcem ta opatovne ubezpecit, ze toto ziadny problem pre nijaky nas ekosystem ani biznis model nie je. Konspiracia pekna, ale ked uvidis nase prijmy z ekosystemu pochopis. A vlastne cele naopak, budem velmi rad, ked nebudem musiet cistit statne data, ale robit nad nimi len tie aplikacie s pridanou hodnotou.

Bavime sa vyhradne o open datach, ze? Ake integracne projekty tu spominas? Projekty ktore budu vyuzivat otvorene data budu najskor hradene zo sukromnych penazi, cize nerozumiem o com je rec. Plus teda ja mam za sebou nejake integracie pomerne velkych datasetov a skus uhadnut kde je zakopany pes:

  1. data su nedostupne a treba ich zpristupnit (hocijako) - pridana hodnota nekonecno lebo z nuly mam nieco
  2. data su dostupne ale je v nich bordel (duplicitne identifikatory smerom von na referecne data) - pridana hodnota velka aj ked si to vycistit musis sam. (toto je aktualny stav)
  3. data su dostupne a su v nich nejake unikatne identifikatory na referencne data - pridana hodnota obrovska - viem prepojit dva datasety bez toho, aby som to rucne cistil (spoiler alert - toto niekto musi aspon trosku spravit aj tak, cize najskor gestor dat predtym ako to vyhlasia za ref. udaje)
  4. data z roznych datasetov nie su jednotnom formate. - meh.

Prepac, ale cela tato saskaren ci to bude RDF, OWL, N3, Turtle alebo ine furtle riesi problem v praxi limitne sa bliziaci nula cela nic. A to ti hovorim ako clovek co sa semantickemu webu venoval na vyske, ked tam tvoj kolega - este o semantickom webe ani nesnival. A taktiez ako clovek co na open datach zacal svoju karieru aktivistu a mam za sebou zopar myslim celkom uspesnych open data projektov. To co tu prezentujete ako problem datovej integracie, tak na to som v zivote nenarazil a nikdy mi to nechybalo. Preto moja poznamka o slonovinovej vezi. Rad si vypocujem ake projekty napriklad v Datalane, za tie roky co sa tomu venujete ste s tymto urobili a kolko prinosov vam toto prinieslo. Lebo toto sa pytam snad uz milionty krat a nic. Problem neni medzi krokmi 3. a 4., to je implementacny detail. Kamen urazu je medzi 2. a 3. a to nijake rdf, owl, linked data nijakym sposobom neriesi. To dokonca neni ani ITckarsky problem.

K 4. vstupny/vystupny format a jeho konverzia/filtracia do niecoho co potrebujem je jednorazova vec, preto je dost nepodstatne co to je, hlavne nech to nerobi viac problemov ako uzitku. A to je presne ten moment kde zacinam mat pochybnosti.

Takze takto, na vstupe bude RDF, na vystupe RDF, odhlasovala sa povinnost robit pre nejake projekty 100% v 5* a tak sa teda opravnene pytam, ze co myslime pod tym RDF. Lebo zatial tu nepadlo ani slovo o tom, ze to moze byt aj to JSON-LD (teraz uz odrazu je to ok) a som zvedavy co povies na to, keby to ostali byt tie CSV a k tomu by sa len prilepila transformacia na RDF (mimochodom w3c odporucanie Generating RDF from Tabular Data on the Web) a kto chce nech si ju pouzije. Bude to 4* alebo 5* ? Ak ano tak s tym nemam ziadny problem. Ak nie, tak by som laskovo rad vedel aku pridanu hodnotu mi prinesie, ze to bude nejaky iny standardizovany format (prosim kreslenie grafov ktore si viem rozklikvat za pridanu hodnotu naozaj nepovazujem, bavme sa o realnych usecasoch z praxe). Ja pri takomto niecom paradoxne vidim vyhodu, az keby bol pod tym full SPARQL endpoint a mozem si odpalovat queries ake chcem, lenze toto predsa nechceme, ci?

Lebo mne z tohto celeho vychadza len to, ze vyhodu z toho maju len ti, co potrebuju velke mnozstva datasetov spracovavat = standard a z toho ti okamzite vylezie aj triplestore. A to sme predsa tiez nechceli, ci? Uz rozumies mojmu zdeseniu? Ked to kvaka ako triplestore, vyzera to ako triplestore, tak to najskor bude triplestore.

Toto je chvalihodna aktivita, ale rozmyslam co zlyhalo ked sme vlastne uz raz tento projekt nakupili za statne peniaze eDemokracia a dokonca - open data node - https://opendatanode.org/page/unifiedviews a nejako sa to neujalo.

Toto som nikde nerozporoval, takze s tym problem nemam. Skor by ma vsak zaujimalo ako riesite ten velmi prakticky problem s ktorym sa ja uplne bezne stretavam a nejako si sa v tvojej odpovedi mu vyhol - pripomeniem - streamovaci import ktori mi zaruci konzistenciu bez toho, aby som musel robit medziulozisko v pamati alebo disku.

3 Likes

No poviem to takto, trvalo nam 2 tyzdne kym NASES dokazal aktualizovat dataset schranok OVM v CSV, ktore by splnalo vynos - s korektnym kodovanim. (mezicasom tam bola pokazena verzia). Zvladli to tak, ze pomenili nazvy stlpcov. :frowning: Predstava, ze teraz na nich nabehnes s tym, ze to odrazu musi byt v nejakom RDF/XML alebo nebodaj JSON-LD ma celkom pobavila a nasledne zdesila. Ano povazujem to za problem. Samozrejme, ze primarny problem tu je, ze to robia rucne (!!!).

Vieme teda zadefinovat nejaky set formatov ktory splna RDF koncepty a bude ich mozne (nutne?) podporovat na vystupe? Lebo RDF/XML asi urcite, chcelo by to nieco aj trosku pre ludi. Co to bude?

1 Like

Ak sa nato pozriem prakticky, tak by som bol zato, aby sa hlavne otvorili DATA,
stale nam chybaju klucove veci ako napriklad kataster… nasledne nech sa riesi standard,
pretoze inak sa z takto definovanej poziadavky moze stat velmi vhodna vyhovorka, preco sa to neda zverejnit :wink:

2 Likes

@anton-somora Otvorenost dat je prioritou a o tom nie je ziaden spor tj. treba spravit minimalne bariery na publikaciu ale kto chce tak jasne ze si dovod najde ako tebou spominany kataster. Ten kto chodil na K9.4 tak postoj ich zastupcu pozna a podla mna to bude este na dlhsiu diskusiu.

Na ten zvysok by som rad priniesol druhy pohlad tj. nie ten skepticky (aj ked skusenostami mozno podlozeny).

Je vysoka pravdepodobnost, ze IT firmy si v najblizsom obdobi vytiahnu dost sta milionov z eurofondov. Teraz je otazka ze ci je spravne, ked si tam isto oni v rozboctoch rezervuju miesto na OpenAPI/Datasety budget, tak aby ho spravili ako pride mimo standardu a to aj v rozpore s odporucaniami a zadaniami od sponzora tohto celeho operacneho programu EU a jej ISA organizaciou, ktora riesi interoperabilitu na urovni EU. Osobne pochubujem ze potom na vlastne naklady to niekto bude harmonizovat aby aj oni boli spokojni.

Podme teda skorej diskutovat, ze co spravit aby to nikto nemohol ako barieru povazovat a ako maximalizovat kvalitu pri udrzani nejakej rozumnej miery. Napada ta nieco co presne je potrebne a doteraz to chyba a vyrazne by to pomohlo?

Neskor ukazem aj realny kodersky priklad o co je to z tohoto pohladu narocnejsie resp. ci vobec len to je na dlhsie.

2 Likes

Pokúsim sa konštruktívne posunúť celú túto debatu ešte ďalej, som rád že sme konečne uzavreli diskusiu čo je to 3*, 4*, 5* a diskutujeme viac k veci. Priznám sa, že sa ale trochu už strácam, kto má aké priority, celkové názory, či vôbec robiť nové projekty alebo ich všetky zastaviť kým nebude publikovaný posledný dataset; či má byť nejakým spôsobom štandardizovaný tento development s dohodnutými pravidlami, alebo na toto sa má riešiť až po dokončení projektov.

My sa zameriavame na to, aby začali softvérový dodávatelia robiť naozaj čo najviac v dátovej kvalite za verejné peniaze, ktoré získajú. A tu pokladáme interoperabilitu za úplne kľúčovú. Viac krát som započul názor (nešlo o linked data), že nejaký developeri sa hádajú ako sa má komunikovať, pretože im to robí rôzne problémy, atď. Že ale veci sú zadrótované, a podobne. Tejto téme sa venujeme už od roku 2013 a presadzujeme otvorene (aj tu na platforme), že riešením v tomto probléme je implementovať odporúčania EK pre interoperabilitu údajov. Lenže samozrejme, je nemožné urobiť revolúciu, ale postupnú evolúciu, ktorá bude zohľadňovať slovenské špecifiká. Preto sme presadzovali a získali sme podporu na K9.4, že všetky otvorené NOVÉ údaje za verejné zdroje (EU) by mali byť publikované v najvyššom stupni interoperability. Ono to možno znie tak honosne, najvyšší stupeň interoperability, ale v skutočnosti ide o používanie globálnych identikátorov na objekty ISVS a použitie Centrálneho modelu údajov, čo je podľa mňa úplne košér požiadavka.

Dovolím sa spýtať @jsuchal, @Lubor, @anton-somora, @kyselat, @panda a aj všetkých ostatných ktorý majú na toto názor pár otázok/tém:

  1. Fylozoficky, mali by vôbec existovať jednotné “globálne” identifikátory objektov verejných dát, resp. dátových prvkov? (@anton-somora, @kyselat - tu ma obzvlášsť zaujíma Váš názor na projekt blížiacej dátovej integrácie 1xdosť) Alebo treba projekt zastaviť? Alebo neopužiť nič také ako URI, Centrálny model, ale urobiť to inak. Hoc to podporuje EKomisia a dokonca aj MetaIS?

  2. Zdá sa vám že je nesprávne schválené (naformulované), že: všetky nové a inovované ISVS publikujúce open data za verejné zdroje musia byť v súlade s 5*, tj. používať URI a Centrálny model? Znamená to, že takto naformulované pravidlo zníži počet publikovaných datasetov? Veď ale potom sa im nič nepreplatí, takže tu nevidím priestor na zníženie počtu open data. Alebo by to malo byť ešte presnejšie usmernené, aby napr. to platilo len pre OPII projekty, kde je rozpočet pre projekt dosť veľký, aby to nezabilo maličké datasety, ktoré by chceli dodávať malé firmičky, resp. menšie projekty publikácie otvorených dát z existujúcich systémov ako kataster a podobne? Ak áno, navrhnite plis zmenu/doplnenie tej formulácie. Ak to bude systematické, tak si myslim že sa dá aj napriek už schválenému zneniu tieto pravidlá interoperability ešte upresniť. tu sa chcem zase obzvásť @jsuchal spýtať, či toto je ten najäčší problém čo vidí, alebo je to vo všeobecnosti o tom, že LinkedData nie, a my aj Európska komisia:ISA je čistý džihád? Rád by som sa posunul od takejto diskusie, pretože som presvedčený že nie je pre nikoho prínosná.

To sa naozaj nedá urobiť nejaké spoločné kompromisné riešenie, ktoré by sme “pretláčali” spoločne a spoločne by sme aj viac dosiahli? Ja verím že áno.

1 Like