Používa niekto dáta z tabuľky Vchody - konsolidované dáta tak, že sťahuje dané CSV ktoré zverejňujú každý deň? Ako rieši to ak publikujú poškodené dáta?
Na publikovanie dáta NASES používa https://ckan.org/ odpoveď bola, že tabuľka je veľká a počas sťahovania súboru sa dáta v systéme prepíšu.
Mal by som teda používať na prístup k údajom API a nesťahovať CSV súbor.
Prípadne sťahovať JSON v cykloch cez datastrore_search.
Je taký problém v ckan.org vygenerovať aj ručne nepoškodený CSV súbor a prípadne zbaliť do ZIPu a publikovať? Alebo len niečo majú zle nastavené, prípadne slabý HW. Ak je naozaj chyba v ckan.org opravia to?
Tu je log kedy publikovali správne a kedy chybné dáta, poškodené sú kurzívou, správne tučné. Číslo je počet jedinečných riadkov v CSV.
Písal som poskytovateľovi datasetu, ten sa pýtal v NASES a odpoveď bola v zmysle, že je to chyba CKAN a aby som dáta sťahoval cez API v cykloch.
Používam to takmer 2 roky a predtým sa nestávali také chyby. Občas pár dní výpadky, ale potom to šlo znovu dobre. Pochopil som, že systém nestíhal v 2/2021 keď pridávali desaťtisíce opravených adries denne ale teraz pribudne za deň do 1000 riadkov tak to má stíhať.
V tej databáze aj keď je 5 368 573 riadkov tak v skutočnosti ma zaujímajú len aktuálne riadky a neplatné ukončené riadky zahadzujem. Aktuálnych je teraz 1 632 547.
Prečo NASES nepožiada Slovensko IT o pomoc s aktualizáciou data.gov.sk zo starej verzie 2.2.3 z roku 2015 na novšiu 2.9.2 z roku 2021, ak táto chyba bola opravená už v roku 2018?
Už pár týždňov GlobalTel pripravuje riešenie, ako budú publikovať nadrozmerné CSV súbory.
Nejaka referencia k tomu? (Lebo tam by sa potom natiskalo “jednoduche API” namiesto “nadrozmerneho CSV”.)
Kedze sa 5 rokov ziaden update nespravil, tak by z toho logicky vyplyvalo, ze by to mal byt MUST scope projektu Open Data 2.0 ( ktory je na plane “soon” , vid napr. MIRRI Pracovná skupina K9.4 Lepšie dáta - #250 by hanecak ). (To samozrejme za predpokladu, ze niekto nedostal sialeny napad to cele reimplementovat. Aj ked vylucit to nemozem, kedze je vcelku sialene aj to, ze 5 rokov takmer nic patchnute.)
Posledná odpoveď z Globaltelu bola 4/2020, že urobia to takto, vytiahnu dáta do CSV zbalia do ZIPu a publikujú na webe ako súbor na stiahnutie. Ak to bude hotové ozvú sa na testovanie.
Medzitým upravili nejaké parametre databázy, takže menej často publikujú poškodené dáta.
Posledný stav publikovaných dát bol: 2021-06-10 vchody OK 5450558
2021-06-11 je rovnaké vchody
2021-06-12 je rovnaké vchody
2021-06-13 4865000 vchody chyba
2021-06-14 5105000 vchody chyba
2021-06-15 5105000 vchody chyba
2021-06-16 5105000 vchody chyba
2021-06-17 4960000 vchody chyba 2021-06-18 vchody OK 5454576
Len škoda pre tých čo netušia o chybe a stiahnu si poškodené dáta v dobrej viere, že majú kompletné adresy bez toho aby kontrolovali koľko adries musí byť v súbore.