Denník NP OpenData 2.0

Už to vyzerá dobre.
Stratili sa tam riadky Dokumentácia datasetu a všetko staršie ako 17.01.2022.

Ano, je to kvoli obmedzenemu poctu vysledkov. Pridame tam strankovanie.

OK, už bol procesing mergnuty a datumove metadata su na prode.
Ak chcete strojovo-spracovat datasety, napr. v ramci datovej serie a manipulovat s nimi, najlepsie je pouzit SPARQL Endpoint. Uvedene zotriedenie dostanete aj pomocou tohto prikazu:

PREFIX dct: <http://purl.org/dc/terms/>
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX dcat: <http://www.w3.org/ns/dcat#>
SELECT *
WHERE {
  <https://data.gov.sk/set/6a81933d-2871-46b9-a26e-8ca980f83e99> dct:hasPart ?dataset .
  ?dataset dct:modified ?modified.
  ?dataset dct:title ?title .  
} order by desc(?modified)

Čo sa týka opendát Registra adries. S MinV intenzivne na opendatach spolupracujeme, momentalne sa dokoncuje OpenDataAPI, ktore bude konecne podporovat aj dereferenciaciu referencovateľných identifikátorov entít RA.
Samotné veľkoobjemové dumpy sa majú prestať nahrávať do centrálneho portálu, ale majú zostávať v ich prístupnom úložisku. Čiže ide iba o to, kam budú metadáta smerovať link na stiahnutie. Prosím o chviľu strpenia kým sa to vyrieši. Keď budem mať viac údajov tak ich postnem.

Zatiaľ nepridali nové súbory, posledný je z 12.2 a chýba 19.2 a 26.2., predtým zverejňovali každý pondelok.

Ale ani starší súbor sa už nedá stiahnuť Národný katalóg otvorených dát odkazuje niekam na neverejný server https://modmcasv221:8081

1 Like

Dík za reportovanie, riešime to.

Je niečo nové?

Súbor Cestné úseky – stav k 12.02.2024 Národný katalóg otvorených dát sa už dá stiahnuť, ale ten je posledný, chýbajú 3 novšie súbory, predtým bola týždňová aktualizácia.

Register adries Ulice - konsolidované dáta, kedysi bola denná aktualizácia
https://data.slovensko.sk/datasety/41688ef6-ce98-11de-eeb1-aea74bd23f13
pri ukladaní neponúka .CSV koncovku a posledný riadok je starý z 2024-01-31T15:59:19
Tiež mi tam chýba info o poslednej aktualizácii na starom sa zobrazovalo (pred xx hodinami, xx dňami)

Register adries Vchody - konsolidované dáta tiež bola denná aktualizácia
https://data.slovensko.sk/datasety/19449379-9046-f3d6-a4f7-be38ea63d564
Počas sťahovania server neposkytuje info o veľkosti súboru, takže prehliadač nezobrazí čas kedy stiahne, pri ukladaní neponúka .CSV koncovku

obrázok
Posledný riadok v súbore je 2020-08-13T13:51:17
riadok 1738764 s _id 5026690 má dátum 2024-02-09T14:27:44

To MINV nevadí, že už mesiac nezverejňuje údaje z registra adries?
Keď poskytujú denné dáta pre ZBGIS, nemôžu tie isté dáta sprístupniť aj ostatným?

1 Like

Áno, chybné linky sme už opravili, toto bolo issue na našej strane.

Tú koncovku (.CSV) skontrolujem a uvidím čo sa s tým dá robiť.

Toto ešte plánujeme aby sa zobrazovalo, pridal som to do tasklistu:

Určite to vadí, mrzí ma že to mešká. Tým že MinVnútra má tých datasetov veľmi veľa a nový portál niektoré veci zmenil, tak im to chvíľu trvá. Publikovanie opendát bolo v starom systéme špecificky nakódované, a toto je ešte vo vývoji.
Každopádne aj kvoli nim (a ostatným poskytovateľom) sme zaradili do realizácie požiadavku, aby bolo možné ako v ČR vytvárať vnorené dátové série, aby bol v katalógu čo najväčší poriadok.

Určite ale datasety registra adries (či ostatné z MinV) musíme dať spoločne do poriadku, zistím bližšie detaily a zazdieľam.

Dobry den @liska
Pride mi to ze cely novy NKOD je krok dozadu. V starom rieseni na data.gov.sk existoval napriklad sposob ako sa cez SQL dalo ziskat co potrebujeme. Urcite to bolo nieco co nemuselo byt, ale chyba nam to. Hlavne ma hneva absencia roznych udajov z vyssie spominaneho minv poskytovatela. Nevieme kto je zodpovedny za nekompletnost dat (chyba napriklad cely okres), nevieme ako casto su aktualizovane udaje.
Aj ked som napisal na mirri, dostal som kontakt na kurator, ale to je aj tak nula bodov - bez odpovede. Chapem, vela roboty, ale moj nazor je, ze takyto novy portal NKOD sa nemal ani spustat, alebo stary nevypinat, lebo v urcitych pripadoch to moze byt blocker.

Dobrý deň. NKOD určite nie je krok späť, portál je postavený výlučne na sledovaných/odporučených vlastnostiach opendatových portálov v EÚ, a jeho architektúra sa k najlepším dorovnala.

Musím ale uznať, že opendata Registra adries sú ešte v tomto momente nedotiahnuté, a bohužiaľ tieto údaje patria medzi najviac používané, a ešte nejaký čas potrvá, kým sa to dá do poriadku. Samozrejme zodpovedný za chýbajúce dáta je poskytovateľ, v tomto prípade MinV, s ktorým samozreme sa snažíme tieto veci dotiahnuť. Tým ale, že sme ale národný koordinátor otvorených dát my (MIRRI), kritika voči nám je oprávnená a sme si toho vedomí a kým sa nedá do poriadku Register adries, tak všetky prednosti (lepší dátový model, SPARQL endpoint, harvestácia lokálnych katalógov, …) budú pre Vás druhoradé a nepodstatné.

Je to samozrejme naša priorita. Dnes sme mali spoločný meeting s MinV, kde sme sa presne o tejto veci opäť rozprávali a dohodli sme sa, že na najbližšej pracovnej skupine (cca za dva týždne) sa budeme primárne venovať Registru adries, a celkovo-novej koncepcii zverejňovania otvorených údajov MinV. Ako možno viete, čoskoro budú dostupné nové OpenDataAPI Registra adries, ako aj nové možnosti sťahovania datasetov, ktoré súvisia s HVD (HighValueDatasetmi), rovnako aj zmeny v publikácii datasetov tak ako tomu bolo doteraz: plánované odstránenie publikovania zmenových dávok a zameranie sa na konsolidované datasety, a ďaľšie.

Náš spoločný plán je publikovať novú koncepciu ešte pred plánovou pracovnou skupinou, aby sme sa na nej už mohli riešiť konkrétne návrhy.

Neviem či máte na mysli SQL dotazovanie nad dátami, alebo metadátami, každopádne v novom portáli je to vyriešené nad metadátami oveľa lepšie, aj vďaka novému metadátovému modelu otvorených údajov podľa DCAT-AP-SK-2.0.1.

Každopádne budeme radi, ak Vaše požiadavky/pripomienky vložíte aj sem, ja ich všetky zozbieravam a posúvam na MinV. Do doby kým to nebude systematicky vyriešené hľadáme aj nejaké dočasné riešenie, a verím že chýbajúce dáta pribudnú čoskoro.

1 Like

Ak je prihlásený užívateľ, môže si vybrať v mene akej organizácie zverejňuje údaje?

To sa dá len roli superadministrátor (to sme cca 3ja za MIRRI), ale v tom to nebude. Issue asi vzniklo pri migrácii, v starom data.gov.sk sa pre identifikáciu poskytovateľov nepoužívali URI ale GUIDy starého systému, a pár tam bolo veľmi divných, takže to môže byť issue tohto alebo príbuzného typu. Idem to vyreportovať, díkes za nahlásenie.

Riešenie je možné sledovať tu:

Som zvedavý na túto novú koncepciu a rád si ju prečítam ešte pred stretnutím PS.

Pokiaľ ide o zmenové dávky Registra adries, keďže som bol pri doterajšej implementácii, pre pamäť: v pôvodnom projekte RA neboli žiadne OpenData. Dohoda s MV bola teda taká, že údaje môžu byť zverejňované, ale nesmie to na strane MV znamenať žiadne nové náklady. Zmenové dávky bol štandardný spôsob získavania údajov z RA pre integrované subjekty, a taktiež najefektívnejší spôsob ako sledovať “všetky zmeny”. Na strane Nases bolo implementované riešenie, ktoré údaje zo zmenových dávok preklopilo do databázy, nad ktorou bolo možné robiť štandardné SQL dotazy a vytvorené boli aj konsolidované datasety ak niekto rýchlo chce stiahnuť celú bázu údajov. Samotné zmenové dávky boli zverejňované jednak ako súčasť zásady, že keď už nejaké údaje mám, šup s nimi von bez veľkých úvah nad formátmi, a taktiež ako poistka aby údaje boli dostupné aj ak by preklápacie riešenie nefungovalo (čo sa ukázalo ako dosť prezieravé). Pri celej tejto aktivite bola snaha detailne komunikovať s používateľmi údajov. Spracovanie tohto registra som považoval za modelové. Bohužiaľ ďalšie nenasledovali…

1 Like

@liska chápem že máte plné ruky práce s technickými detailami nového portálu. Pre mňa sú však podstatné publikované údaje.
Sledujete napr. toto: Anti Open Data Katastra a čo s tým plánujete?

Díkes za informácie.

Pracovná skupina bude 26.3. o 13:00.
https://wiki.vicepremier.gov.sk/pages/viewpage.action?pageId=155320450

Keď sa rozpošlú štandardné pozvánky, tak tam pridám link na pripojenie aj pre verejnosť. Akonáhle získam materiál od MinV, tak ho tu zverejním dopredu.

1 Like

Klamal by som, ak by som povedal, že proces vybavovania podnetov na zverejňovanie otvorených dát už nemáme ako vylepšiť. Podnetov máme viacero, napr. aj nedávno diskutovaný podnet O2
https://wiki.vicepremier.gov.sk/pages/viewpage.action?pageId=146573741
je zatiaľ len v evidenčnom móde. Máš pravdu v tom, že v opendátach je najdôležitejší ich konzument a my sme v poslednom čase naše obmedzené kapacity míňali viac menej na projekt otvorených údajov (portál, štandardy, sprístupňovanie zdrojových kódov, technicky zamerané školenia).

Verím ale, že sa veci zlepšia aspoň čiastočne, nakoľko portál sa je už viac menej v prevádzke, hoc úsilie naň opadne asi až po doriešení datasetov registra adries. Asi je načase pracovné skupiny opendata postupne prestať orientovať na technickú stránku pre poskytovateľov a začať sa zameriavať sa na riešenie podnetov konzumentov. Som si vedomý toho, že to vždy prízvukuješ. Následnú pracovnú skupinu po tejto najbližšej môžeme už takto spraviť, aby sme stihli veci oplyvniť kým sa dá. A ak by to bolo v duchu, poďme si spoločne pomôcť a vymyslieť spôsob ako na to, nielen v zmysle že budeme prezentovať čo sme dosiahli, tak by sme asi vedeli aj niekam zájsť.

OK, už sme objavili chybu:

pri migrácii sme mali chybne zapísané IČO Tvrdošína pre Úrad pre reguláciu hazardných hier, takže datasety tvrdošína sa im nesprávne pridelili. Chybu odstránime v najbližších dňoch.

URL nefunguje, 403.

Pri danom koncepte, ktorý bol na starom dataportály, MVSR v poslednom období narážalo na limity samotného CKANu, resp. možno aj infraštruktúry na ktorej bol CKAN prevádzkovaný. Sťahovanie datasetov cez služby RA, síce fungoval no následné zapracovanie zmenových dávok do datasetov a ich publikovanie, či už v konsolidovanej podobe alebo v podobe zmien voči inicializačnej dávke od dátumu jej generovania, na portály bol problém. Na pravidelnej báze sa stávalo, že vypublikované datasety, najmä dataset budov a vchodov, ktoré majú v produkcii cca 4GB, na dataportály neboli vypublikované kompletne alebo ich nedokázal kompletne stiahnuť konzument, a teda mu chýbali riadky. MVSR v minulom roku realizovalo projekt z interných zdrojom, na základe ktorého v spolupráci s Dátovou kanceláriou MIRRI pripravilo koncept, ktorý bude predstavený. MVSR vybudovalo nový Open data portál RA, ktorý bude prevádzkovaný vo vládnom cloude a ktorý poskytne širšie možnosti využívania dát RA.v už skatalogizovanej podobe.

Viac na avizovanom stretnutí pracovnej skupiny.

4 Likes

Asi sa pripájaš zo zahraničia? Zo SK to ide:

Pre všeobecné metodické informácie o otvorených dátach sme si vytvorili metodický portál https://opendata.gov.sk (podľa ČR https://opendata.gov.cz) na MetaIS confluence. Bohužiaľ, kvoli problémami (asi s hackermi) bol tento confluence pár týždňou dole, a opätovné nastavenie bolo také, že je neprístupné zo zahraničia. Pracujeme (MIRRI) na novom riešení, toto neviem ovplyvniť.

Na pôvodnom portály sa cestné úseky zverejňovali cez individuálne naprogramovanú funkcionalitu a volenie služieb RA, kde bola zadefinovaná týždenná aktualizácia. Funkcionalita volala službu RA na získanie geometrií ulíc v RA po jednotlivých obciach, a následne získané xml ukladala podľa identifikátora obce. Toto riešenie “zatiaľ” nie je dostupné na novom portály. Na nový data portál bol ručne vypublikovaný dataset cestných úsekov k 11.3.2024, ktorý je ale vypublikovaný po krajoch, keďže na starne MVSR neexistuje taká funkcionalita, ktoré by to umožnila vygenerovať po obciach. Štruktúra xml je však identická.

https://data.slovensko.sk/download?id=3e645058-9939-4e55-b3e1-6e865022f3fe

1 Like