Denník NP OpenData 2.0

Register adries - Register budov má presne tie isté chyby ako na data.gov.sk:

  • zlá diakritika pri niektorých záznamoch: Bytová budova, Nebytová budova
  • zlý default pre typ budovy u záznamov z IMPORTu: namiesto NULL je všade 20 - Iná budova

S takýmito dátami sa ťažko pracuje :slightly_frowning_face:

Namiesto stĺpca buildingPurposeName string
účel budovy, názov podľa príslušného kódu podľa číselníka CL010142
použite stĺpec buildingPurposeCode string
údaje o spôsobe využívania budovy, účel budovy, kód podľa číselníka CL010142

Keď pozriem výskyt v platných záznamoch, tak to sedí a stĺpec buildingPurposeName je nadbytočný, duplicitný
obrázok

obrázok

to isté aj
buildingTypeCode long
kód druhu stavby (budovy) podľa číselníka CL010143

je k tomu duplicita
buildingTypeName string
druh stavby, názov podľa príslušného kódu podľa číselníka CL010143

potom tie dáta (3 316 638 záznamov) zaberajú zbytočne veľa miesta a nie sú schopný ich publikovať bez poškodenia. Naposledy CSV budovy na stiahnutie boli kompletné 30.8.2023, odvtedy ich publikujú poškodené s chýbajúcimi riadkami.

Takže ~80% vyplnených záznamov má zlú diakritiku :slightly_frowning_face:

A platných záznamov typu IMPORT so zlým defaultom ( buildingTypeCode=20, nie NULL) je stále 230729, čiže ~14 %.

1 Like

Teraz som si vsimol, ze na novom portali nevidim ziadny oznam o tom, ze mozem MIRRI poziadat o open data a oni to vybavia (snad). Stary portal toto mal, aj som to pouzival. To je velka chyba, niekde to tam hned na frontpage treba napisat! @liska

1 Like

Funkcionalita podávanie podnetov je plánová v pripravovanom subsystéme OD2.0-Komunita, ktorá bola odčlenená z VO pre Webový portál, lebo by sme to nestihli do konca roka. Toto je len jednoduchý návrh, ktorý budeme aktualizovať.

Viac krát som to tu spomínal. Subsystém realizujeme interne v Dátovke, máme na to dohodára, ktorý to programuje. Časť backendu by mal byť už pripravená, čoskoro sa pushne do vývojového branchu do githubu. Chvíľu bol vývoj zastavený kvoli neexistujúcim dohodám, takže sa plánované dodanie jemne posunie, verím ale že do konca Q1/2024 sa to dokončí. Po najbližšom našom internom stretnutí aktualizujem o tom informácie a informácie o zaradíme aj do najlbližšej pracovnej skupiny OpenData. Teraz sa maximálne zameriavame na to, aby sme mohli už starý portál vypnúť a aby mohli poskytovatelia už nahadzovať datasety tam. Aj keď možno projekt vyzerá jednoducho, v skutočnosti to je dosť komplikované, jednak sa systém používa (nie je to zelená lúka) a zmenil sa dátový model celkom podstane (z jedného datasetu je často viac datasetov, ktorým sa menia URI), takže robíme čo vieme.

3 Likes

Takto, kdekolvek to bude, tak na sucasnom portali prosim dajte aspon oznam, ze treba pisat na opendata@mirri.gov.sk - Ak je to problem, tak mozeme v ramci hackday spravit pull request a dorobime to tam my.

4 Likes

OKI, niečo vymyslíme, ako to tam urobiť hoc aj dočasne. Samozrejme bolo by super, aby sa takéto dorábky dali robiť ako to navrhuješ, veď o tom je celé toto zdieľanie kódu. Toto verím že spravíme ešte s dodávateľom portálu, ale prejdeme si to na diskusiu takýto mód fungovania. Za mňa samozrejme je to OK a veľká vďaka za ponuku. :+1:

2 Likes

Do pätičky sme pridali:

a rozpravávame aj lepšie témy pre podporu:

Každopádne, verím že toto bude vyriešené lepšie v rámci nového subsystému ODKomunita, a čoskoro bude aj developeská verzia v githube.

1 Like

Ešte by som chcel zdôrazniť, že sa blížime k stavu, kedy súčasný portál už bude nedostupný. Ak pôjde všetko podľa plánu, čo dúfam pôjde, tak sa tak stane už zajtra ráno. Keď zajtra navštívite adresu data.gov.sk, tak sa už na súčasný portál nedostanete. Od pondelka bude už nový portál data.slovensko.sk určený už aj pre zápis. Minulý týždeň sme k robili prvé školenie na nový portál s názvom Manuálna katalogizácia otvorených údajov:

Včera bolo ďaľšie školenie na tému Automatizovaná katalogizácia otvorených údajov cez harvestovanie Lokálnych katalógov otvorených údajov. To ešte zavesíme na web.

OK, práve sme mali meeting a vyzerá to, že predsa ešte o týždeň odsunieme začiatok zapisovania datasetrov do nového portálu, tj. 12.2.

Je to kvoli licenciám. V rámci nového portálu sme prešli na mierne komplikovanejší model, kde namiesto jednoduchej vlastnosti licencia, sa podľa ČR používajú komplikovanejšie DCAT-AP-SK-2.0.1-Podmienky použitia, a po analýze sa nebude dať urobiť iba jednoduché mapovanie a strojové prehodenie.

Predpokladáme, že podmienky prenesieme 1:1 tak ako je to na starom portáli a tým pádom aj použijeme štandardnú vlastnosť licencia (dct:licence) v DCAT AP. Nový portál akurát pre väčšiu presnosť viazať túto vlastnosť na distribúciu, nie na dataset.

Toto by sme do pondelka nestihli a nechceme začať zle. Tak ešte prosím o pochopenie.

Nemám nič k téme, iba chcem poďakovať za super info servis. :clap:

4 Likes

Ahojte, krátka informácia. Minulý piatok sme mali nastavenú odstávku data.gov.sk s tým, že odnes sa už mali zapisovať datasety do nového portálu data.slovensko.sk.

Aj keď sme boli ready, vykonali sme zálohy, poslednú harvestáciu a ráno od cca 7:00 začalo fungovať viac potrebných presmerovaní, ako napr.

  • data.gov.sk → data.slovensko.sk
  • data.gov.sk/dataset/* → data.slovensko.sk/datasety/*
  • data.gov.sk/set/* → data.slovensko.sk/datasety/*

zistili sme, že to nefunguje úplne správne a občas príde nečakaná odpoveď (stále zo starého CKANu). Takže sme to museli odložiť, pretože zneprístupnenie súčasného portálu je základná podmienka. No a keďže toto sa snažime vyriešiť cez víkend, tak odkladáme spustenie zápisu do nového portálu predbežne na ďaľší alebo ešte ten ďaľší víkend, kým to bolo úplne vyriešené. K tomuto inak aspoň krátka napíšem, že toto by malo byť systémovo riešené v novom MetaIS (presmerovanie domeny data.gov.sk, nakolko je to podla vyhlasky domena pre referencovatelny identifikator).

Som z toho trochu sklamany, ale da sa na druhej strane z toho vytazit. Mam aspon cas este lepsie vytunovat harvestovanie stareho data.gov.sk. Tu mozete vidiet tasky, ktore sa uz spravili a vylepsili kvalitu vysledneho NKODu:

Robili sme školenie na tému automatizovaná publikácia otvorených údajov:

Najbližšie školenie bude o dopytovaní data.slovensko.sk cez SPARQL Endpoint. Tam bude prezentované, ako strojovo vyhľadávať v NKODe cez API, ktoré má formu štadardného SPARQL endpointu. Termín ešte nie je stanovený, ale bude to v dohľadnej dobe.

Pre zaujímavosť by som rád napr. ukázal, ako sa “rozbili” distribúcie na datasety, ktoré mali byť už ako datasety zaevidované v starom portáli. Avšak zo zoskupenia pod dataset vieme vytiahnuť a vyrobiť dátovú sériu.

Napr. dataset Faktúry RUVZ v starom portáli bol dataset s distribúciami nahodený takto:

v novom portáli je to správne, tj. všetko sú datasety zoskupené v datasete typu dátová séria:
https://data.slovensko.sk/datasety/089adc66-2ec8-4165-8509-a72ad39ef9f8

Samozrejme, bude treba opravovať metadáta, napr. časové pokrytie datasetov. Toto bude akiste nejaký čas trvať, ale aspoň je to už na správnej ceste.

2 Likes

Dátová kancelária MIRRI SR si Vás dovoľuje informovať, že od dňa 11.12.2023 je Národný katalóg otvorených dát (data.slovensko.sk), … nasadený do produkčného prostredia.

možnosť publikovať otvorené údaje v rámci súčasného portálu otvorených údajov data.gov.sk ostáva dočasne zachovaná. Tento stav bude platiť až do 23.2.2024, po ktorom bude už staré riešenie na publikovanie otvorených údajov neprístupné.

Do tejto doby je možné používať nový portál otvorených dát v testovacom režime.

Dávajú na data.slovensko.sk aspoň skúšobne nové dáta?
Keď si otvorím budovy
https://data.slovensko.sk/datasety/faa46936-dc7d-dc11-700b-c26923971841
tak odkazuje na stiahnutie súboru zo starého data.gov.sk
Kedy začnú skúšať či to dobre funguje ?

Nový portál data.slovensko.sk každý deň harvestuje data.gov.sk, tak aby bol stále aktuálny a teda to, že súbory na stiahnutie sú ešte na starom je zámerne.

V novom portáli je už registrovaných množstvo poskytovateľov za OVM, a tí môžu v testovacom režime súbory nahrávať do nového portálu. Pre viac detailov sa dá pozrieť to prvé školiace video - manuálna katalogizácia otvorených dát.

Toto nie je chybné? Podľa čoho sú zoradené Datasety z tejto série?
Lebo v tomto hľadať kde je najnovší súbor sa nedá.
https://data.slovensko.sk/datasety/6a81933d-2871-46b9-a26e-8ca980f83e99
Datasety z tejto série

Cestné úseky – stav k 12.08.2019
Cestné úseky – stav k 11.09.2017
Cestné úseky – stav k 02.05.2022
Cestné úseky – stav k 03.08.2020
Cestné úseky – stav k 10.07.2017
Cestné úseky – stav k 29.04.2019
Cestné úseky – stav k 25.09.2023
...
Cestné úseky – stav k 04.11.2019
Cestné úseky – stav k 23.03.2020
Cestné úseky – stav k 01.01.2024
Cestné úseky – stav k 20.02.2020
Cestné úseky – stav k 17.04.2023
Dokumentácia datasetu
Cestné úseky – stav k 24.05.2021
Cestné úseky – stav k 17.10.2022
Cestné úseky – stav k 01.08.2022
Cestné úseky – stav k 05.02.2024
Cestné úseky – stav k 31.07.2023
Cestné úseky – stav k 01.07.2019

Dakujem za nahlasenie, zacal som to pozerat. Predbezne som narazil na suvisiace issue, ze nevidno datumove polia cez SPARQL endpoint

Ale sortovanie musim este pozriet. Kazdopadne je dolezite povedat, ze datum vytvorenia distribucie na starom portali, nemusí odrazat skutocne casove pokrytie datasetu. Toto sa bude musiet upresnit datovymi kuratormi. V tomto pripade cestnych usekov bude stacit asi aj sort podla datumu vytvorenia datasetu → takze datova seria by mala byt zosortovana spravne. Musim to cheknut.

OK, už som asi na to prišiel. Na prode je staršia verzia db, kvoli starsej verzii prcesingu. Po mergnuti a reharvestacii by sa to malo vyriesit.

aj doterajšie publikovanie od 08.02.2016 https://data.gov.sk/dataset/register-adries-register-geodata je také neprehľadné, mohli každý starý rok zbaliť do jedného ZIPu a samostatné týždňové súbory mať len za aktuálny rok

MINV už prestalo publikovať?
na starom data.gov.sk Register Adries - Register ulíc - Ulice - konsolidované dáta -data.gov.sk
aj novom Národný katalóg otvorených dát
Vizualizácia tabuľky je aktuálna, ale CSV súbor na stiahnutie je starý s 31.1.2024.

Toto je už nad naše sili, aby sme to takto štruktúrovali. Upratať v svojich metadatach si budu musiet poskytovatelia samy. My im ciastocne pomahame, napr. ze z distribucii ktore maju byt datasety to robime, ale dalsie alebo ine strukturovanie/zoskupovanie po rokoch, po mesiacoch, alebo po geografickych uzemiach (po krajoch…) to si musia urobit samy.

zostatok este preverim.

Datasety sú už zoradené podľa dátumu ich modifikácie.
Platí ale to čo som povedal. Tým že na starom portáli boli často datasety nahodené zle, bez potrebných metaúdajov, nedá sa príliš čarovať a chvíľu potrvá, kým si OVMka svoje metáda dopresnia. Každopádne nový portál nikde nebude menej presný, než starší.