Register Adries - Register vchodov

Používa niekto dáta z tabuľky Vchody - konsolidované dáta tak, že sťahuje dané CSV ktoré zverejňujú každý deň? Ako rieši to ak publikujú poškodené dáta?

Stiahnuté dáta sú poškodené v tomto zmysle.
Na webe je https://data.gov.sk/dataset/register-adries-register-vchodov/resource/b89a3dd3-0398-41bc-8c55-5a17617247ea zobrazuje 5368573 záznamov.
Ak stiahnem CSV má toľko riadkov. Ale niektoré rozsahy riadkov sa tam opakujú, takže chýbajú dáta.
Dnes tak chýba z platných neukončených adries 163 480chybajuce_vchody_20210319.zip (1.8 MB) riadkov, čo je 10% zo všetkých aktuálnych adries.

Na publikovanie dáta NASES používa https://ckan.org/ odpoveď bola, že tabuľka je veľká a počas sťahovania súboru sa dáta v systéme prepíšu.
Mal by som teda používať na prístup k údajom API a nesťahovať CSV súbor.
Prípadne sťahovať JSON v cykloch cez datastrore_search.

Je taký problém v ckan.org vygenerovať aj ručne nepoškodený CSV súbor a prípadne zbaliť do ZIPu a publikovať? Alebo len niečo majú zle nastavené, prípadne slabý HW. Ak je naozaj chyba v ckan.org opravia to?

Tu je log kedy publikovali správne a kedy chybné dáta, poškodené sú kurzívou, správne tučné. Číslo je počet jedinečných riadkov v CSV.

2021-02-26 importovane 5350170
2021-02-27 je rovnaké
2021-02-28 importovane 5350961
2021-03-01 je rovnaké
2021-03-02 importovane 5339617
2021-03-03 importovane 5339617
2021-03-04 importovane 3990653
2021-03-05 importovane 3990653
2021-03-06 importovane 5279783
2021-03-07 importovane 5279783
2021-03-08 importovane 5304945
2021-03-09 importovane 5304945
2021-03-10 importovane 5357045
2021-03-11 je rovnaké
2021-03-12 importovane 3378785
2021-03-13 importovane 3378785
2021-03-14 importovane 3378785
2021-03-15 importovane 5210000
2021-03-16 importovane 5210000
2021-03-17 importovane 4996312
2021-03-18 importovane 3977441
2021-03-19 importovane 3977441

1 Like

Skusal si napisat sem?

image

Písal som poskytovateľovi datasetu, ten sa pýtal v NASES a odpoveď bola v zmysle, že je to chyba CKAN a aby som dáta sťahoval cez API v cykloch.

Používam to takmer 2 roky a predtým sa nestávali také chyby. Občas pár dní výpadky, ale potom to šlo znovu dobre. Pochopil som, že systém nestíhal v 2/2021 keď pridávali desaťtisíce opravených adries denne ale teraz pribudne za deň do 1000 riadkov tak to má stíhať.

V tej databáze aj keď je 5 368 573 riadkov tak v skutočnosti ma zaujímajú len aktuálne riadky a neplatné ukončené riadky zahadzujem. Aktuálnych je teraz 1 632 547.

1 Like

Zatiaľ stále publikujú nepoužiteľné dáta.

2021-03-20 4708573
2021-03-21 4708573
2021-03-22 3009023
2021-03-23 5293972
2021-03-24 5293972
2021-03-25 5293972
2021-03-26 3710028
2021-03-27 4666587
2021-03-28 4712931
2021-03-29 4712931
2021-03-30 5273555

2 Likes

Tot pri inom “resource” RA sme ostane natrafili na Datastore dump results are not the same as data in database · Issue #4150 · ckan/ckan · GitHub . Toto moze byt teda to iste, alebo podobne (alebo aj nieco ine - samostny proces preklapania udajov z RA na data.gov.sk je dost komplikovany, t.j. kopa prilezitosti na problemy).

Prvé hlásenie tejto chyby (duplicitné a chýbajúce riadky v CSV) som im písal v 12/2020, až teraz prisľúbili, že to budú riešiť.

1 Like

Prečo NASES nepožiada Slovensko IT o pomoc s aktualizáciou data.gov.sk zo starej verzie 2.2.3 z roku 2015 na novšiu 2.9.2 z roku 2021, ak táto chyba bola opravená už v roku 2018?
Už pár týždňov GlobalTel pripravuje riešenie, ako budú publikovať nadrozmerné CSV súbory.

Nejaka referencia k tomu? (Lebo tam by sa potom natiskalo “jednoduche API” namiesto “nadrozmerneho CSV”.)

Kedze sa 5 rokov ziaden update nespravil, tak by z toho logicky vyplyvalo, ze by to mal byt MUST scope projektu Open Data 2.0 ( ktory je na plane “soon” , vid napr. MIRRI Pracovná skupina K9.4 Lepšie dáta - #250 by hanecak ). (To samozrejme za predpokladu, ze niekto nedostal sialeny napad to cele reimplementovat. Aj ked vylucit to nemozem, kedze je vcelku sialene aj to, ze 5 rokov takmer nic patchnute.)

Posledná odpoveď z Globaltelu bola 4/2020, že urobia to takto, vytiahnu dáta do CSV zbalia do ZIPu a publikujú na webe ako súbor na stiahnutie. Ak to bude hotové ozvú sa na testovanie.
Medzitým upravili nejaké parametre databázy, takže menej často publikujú poškodené dáta.

Posledný stav publikovaných dát bol:
2021-06-10 vchody OK 5450558
2021-06-11 je rovnaké vchody
2021-06-12 je rovnaké vchody
2021-06-13 4865000 vchody chyba
2021-06-14 5105000 vchody chyba
2021-06-15 5105000 vchody chyba
2021-06-16 5105000 vchody chyba
2021-06-17 4960000 vchody chyba
2021-06-18 vchody OK 5454576

Len škoda pre tých čo netušia o chybe a stiahnu si poškodené dáta v dobrej viere, že majú kompletné adresy bez toho aby kontrolovali koľko adries musí byť v súbore.