Register Adries - Register vchodov

Používa niekto dáta z tabuľky Vchody - konsolidované dáta tak, že sťahuje dané CSV ktoré zverejňujú každý deň? Ako rieši to ak publikujú poškodené dáta?

Stiahnuté dáta sú poškodené v tomto zmysle.
Na webe je https://data.gov.sk/dataset/register-adries-register-vchodov/resource/b89a3dd3-0398-41bc-8c55-5a17617247ea zobrazuje 5368573 záznamov.
Ak stiahnem CSV má toľko riadkov. Ale niektoré rozsahy riadkov sa tam opakujú, takže chýbajú dáta.
Dnes tak chýba z platných neukončených adries 163 480chybajuce_vchody_20210319.zip (1.8 MB) riadkov, čo je 10% zo všetkých aktuálnych adries.

Na publikovanie dáta NASES používa https://ckan.org/ odpoveď bola, že tabuľka je veľká a počas sťahovania súboru sa dáta v systéme prepíšu.
Mal by som teda používať na prístup k údajom API a nesťahovať CSV súbor.
Prípadne sťahovať JSON v cykloch cez datastrore_search.

Je taký problém v ckan.org vygenerovať aj ručne nepoškodený CSV súbor a prípadne zbaliť do ZIPu a publikovať? Alebo len niečo majú zle nastavené, prípadne slabý HW. Ak je naozaj chyba v ckan.org opravia to?

Tu je log kedy publikovali správne a kedy chybné dáta, poškodené sú kurzívou, správne tučné. Číslo je počet jedinečných riadkov v CSV.

2021-02-26 importovane 5350170
2021-02-27 je rovnaké
2021-02-28 importovane 5350961
2021-03-01 je rovnaké
2021-03-02 importovane 5339617
2021-03-03 importovane 5339617
2021-03-04 importovane 3990653
2021-03-05 importovane 3990653
2021-03-06 importovane 5279783
2021-03-07 importovane 5279783
2021-03-08 importovane 5304945
2021-03-09 importovane 5304945
2021-03-10 importovane 5357045
2021-03-11 je rovnaké
2021-03-12 importovane 3378785
2021-03-13 importovane 3378785
2021-03-14 importovane 3378785
2021-03-15 importovane 5210000
2021-03-16 importovane 5210000
2021-03-17 importovane 4996312
2021-03-18 importovane 3977441
2021-03-19 importovane 3977441

1 Like

Skusal si napisat sem?

image

Písal som poskytovateľovi datasetu, ten sa pýtal v NASES a odpoveď bola v zmysle, že je to chyba CKAN a aby som dáta sťahoval cez API v cykloch.

Používam to takmer 2 roky a predtým sa nestávali také chyby. Občas pár dní výpadky, ale potom to šlo znovu dobre. Pochopil som, že systém nestíhal v 2/2021 keď pridávali desaťtisíce opravených adries denne ale teraz pribudne za deň do 1000 riadkov tak to má stíhať.

V tej databáze aj keď je 5 368 573 riadkov tak v skutočnosti ma zaujímajú len aktuálne riadky a neplatné ukončené riadky zahadzujem. Aktuálnych je teraz 1 632 547.

1 Like

Zatiaľ stále publikujú nepoužiteľné dáta.

2021-03-20 4708573
2021-03-21 4708573
2021-03-22 3009023
2021-03-23 5293972
2021-03-24 5293972
2021-03-25 5293972
2021-03-26 3710028
2021-03-27 4666587
2021-03-28 4712931
2021-03-29 4712931
2021-03-30 5273555

2 Likes