Dáta: Mirror crz.gov.sk

Peter Kunder z AFP spomenul, ze zmluvy v CRZ nie su naveky. Co mi pride dost absurdne. @Miro_Babic povedal, ze je to dnes cca 750GB dat, tak povedzme, ze by to bolo 1TB. Mirror by stal na amazon S3 priblizne 20$ mesacne.

Povinne zverejňovaná zmluva sa zverejňuje nepretržite počas existencie záväzku vzniknutého z povinne zverejňovanej zmluvy, najmenej však počas piatich rokov od nadobudnutia účinnosti podľa zákona.7g)

Nebolo by nacase spravit to? Pre istotu.

Kopírujem z mojich odpovedí na Jano Suchal - Pri dodávateľoch štátneho IT ma viac ako iné...

(…) kópiu by som dal určite ešte aj do Wayback Machine: Developers | Internet Archive Blogs

(…) je tam mrte PDF. Na developer stránke píšu o pridávaní médií, ale Brewster Kahle na OpenCon-e minulý rok vyslovene hovoril, že majú záujem aj o dáta: ak chce niekto uploadnúť terabajty, môže to rovno urobiť a ak treba uploadnúť petabajty, tak povedal, že “call us first”. Ale aj pri terabajte by som to ale s nimi pre istotu skoordinoval, aby tam bol ich oficiálny “blessing”. A ešte k datasetom na archive.org, tu sú niektoré z nich: Internet Archive: Digital Library of Free & Borrowable Books, Movies, Music & Wayback Machine

(…) jednoduchý spôsob je cez command line alebo browser, napr. teraz na crz.gov je úplne najnovšia zmluva na Súbor na stiahnutie | Centrálny register zmlúv – stačí urobiť GET https://web.archive.org/save/https://www.crz.gov.sk/index.php?ID=603&doc=3067499&text=1 a archív to sejvne a vráti URL https://web.archive.org/web/20170821060013/https://www.crz.gov.sk/index.php?ID=603&doc=3067499&text=1 – takto pridaním Wayback Machine pred URL a stlačením enter stiahneš skoro hocičo (ak to nezakazuje robots.txt). Na veľké fajly a veľké collections je ale API, lebo robiť to po jednom URL je prácne a pri státisícoch súboroch bude sem-tam robiť problémy sieťová vrstva. Cez takýto jednocuchý GET tiež nesejvneš obrovské súbory, kde nastane timeout, cez API tam natlačíš aj mnohogigabajtový súbor.

Keďže LOCKSS (lots of copies keeps stuff safe) je dobrý princíp, netreba to nahrať len na jedno miesto, ale ideálne mať niekoľko miest / backupov, kde sa dáta uložia (S3, archive.org, no a najlepšie aj niekam v našej jurisdikcii, nech to nemáme len u Amíkov). Plus na IPFS. Toto sú veľmi hodnotné dáta, ktoré by bola škoda stratiť.

S3 bucket vo Frankfurte na toto nestaci?

It’s complicated. Podľa názoru niektorých právnikov je európsky Amazon mačkopes. Na jednej strane majú napr. holandské banky povolené ukladať dáta v Amazon cloude, lebo cloud spravuje Amazon EÚ (cca také nejaké bolo ich zdôvodnenie, ak si dobre pamätám?), no a v iných krajinách to nejde, lebo by vraj US government tlakom na materskú firmu mohli napr. žiadať kópiu dát. Takže to je aj nie je pod kontrolou Američanov.

  1. IANAL. Keď sa opýtaš dvoch právnikov, dajú ti tri názory.
  2. Riziko interferencie cudzej vlády v prípade tohoto datasetu je IMHO nízke, ale v budúcnosti nie nulové (#tinfoilhat).
  3. Nech je to akokoľvek, pri takomto hodnotnom a potenciálne politicky citlivom datasete by som určite zvážil backup naprieč jurisdikciami.

S3 je podľa mňa fajn riešenie, backup by som dal do archive.org, no a ak toto bude ešte pár ľudí zálohovať a seedovať cez seba, tak o to lepšie. Zase aby sa z tohoto zbytočne nerobil mega komplikovaný projekt á la government IT… :wink:

Dobre argumenty, ale pre opendata je to trochu ulet, ci?
Ved ak by to aj niekto musel vydat vlade non eu krajiny, tak sa nic zasadne nestane. Ved si to mozu stiahnut.
BTW crz je jeden z mala usecases zaujimavych pre test blockchain pristupu :slight_smile:

2 Likes

spravil som kazdodenny extract nazvov zmluv, nazvov suborov, ich url a velkost

struktura crz exportu su 1 ci 2 dokumenty, takze preto je v extracte url1 a url2

kto to chce spracovat a niekam tie dokumenty umiestnit, nech sa paci, akurat pozor to csv ma aktualne cez 170mega a vyse 1.2 miliona riadkov

https://www.uvostat.sk/crz_dokumenty.zip

To mame. https://ekosystem.slovensko.digital/otvorene-data#crz.attachments

Hej, ak sa bavíme o vydaní dát, tak to je jednoznačný úlet. Ak sa bavíme o vymazaní dát, tak je to už úlet potenciálne trošku menší… :slight_smile: (#tinfoilhat)

Podľa mňa takýto hodnotný dataset, ktorý môže byť v budúcnosti tŕňom v oku mocným ľuďom, treba ochrániť čím lepšie, takže preto sa ho podľa mňa oplatí uložiť ešte bezpečnejšie ako bežné veci (geograficky oddelené miesta + viaceré jurisdikcie).

Presne tak, blockchain autentifikácia FTW! :wink: Alebo aspoň pravidelne vytlačiť v inzercii v novinách hash datasetu / prírastkov… :slight_smile:

ok, tak ak sa niekomu nebude chciet babrat s vasim API tak tam to ma v jednoduchom CSV subore
ak o to nebude zaujem, tak to zmazem :slight_smile:

2 Likes

Až by ste išli niečo pravidelné implementovať hlásim sa, že by som sa pridal. Môžete ma zastihnúť na emaily michal.klempa zavináč gmail.com

1TB by sa dal rozbit aj do torrentov a mozeme to distribuovane backupovat “vsetci”.

1 Like

Torrent bez príloh je tu: https://s3.eu-central-1.amazonaws.com/ekosystem-slovensko-digital-dumps/crz.sql.gz?torrent

Ináč ako torrent rieši aktualizácie súborov?

Torrenty su adresovane cez hash obsahu, cize v principe to su rozne subory/torrenty.

Obsahuje ten vas torent aj samotne pdfka? Alebo sa tu teraz nerozumieme? Jedna vec su crz data a druha su samotne crz zmluvy scanovane do pdf

Neobsahuje.

Caute, spravil som si API na data uvostat.sk a v ramci toho su aj data z CRZ

Je to v ramci platenej sluzby, ale ak by mi chcel niekto spravit testera, kludne spravim docasny pristup
tu je dokumentacia, v podstate je to bud pristup ku vsetkym zmluvam, alebo filter podla ico objednavatela, ci dodavatela

https://www.uvostat.sk/api

limit je 6 requestov za minutu, kedze predpoklad je ze uzivatel si najprv stiahne dataset so vsetkymi zmluvami ak potrebuje, ale planujem dorobit aj ine filtre do api

2 Likes