Projekt: Mapovátko - komunitné čistenie dát

jsuchal · April 30, 2018, 8:55pm

Tento nápad na projekt vznikol interne v Slovensko.Digital, v rámci transparentnosti a silnejšieho zapojenia komunity takéto projekty zverejňujeme pod tagom projekt.

Manažérske zhrnutie: Referenčné registre a datasety dnes obsahujú dáta, ktoré nie sú takmer nijako prepojené. Toto prepájanie je možné robiť len poloautomaticky. Projekt by formou crowdsourcingu umožnil prepájať datasety na naše konsolidované (referenčné) dáta a spoločne vyčistiť niektoré klúčové registre a umožnil pokročilejšie analýzy nad dátami.

Bližší popis: Interne na naše služby používame datasety (RPO, RUZ, IČDPH), ktoré pre služby ako Autoform a Datahub prepájame. Tento proces je poloautomatický a niekedy je navyše aj pre človeka problém zistiť, či nejaké subjekty je možné prepojiť (firmy s rovnakým menom, historické nesediace adresy, menovci…) Nápad bol otvoriť tento tool tak, aby bolo možné pre komunitu pridávať prepojenia a spoločne vytvoriť prelinkované datasety. Prípadne umožniť používateľom napojiť to na svoje datasety (aj privátne - to bol nápad na prémiovú verziu) a umožniť hľadať súvislosti. V ideálnom prípade by tento tool mohol slúžiť (interne alebo podporne) aj samotným úradom, ktoré potrebujú prečistiť registre. A tých bude v najbližšej dobe veľa - viď dopytová výzva v skupine Lepšie dáta

Cieľová skupina: interná potreba SD, investigatívni novinári, úrady so “špinavými” dátami, komunita samotná

Čo dalej?

zmapovať existujúce riešenia (Talend…) a vyskúšať, či by sa na to nedali použiť rovno
vymyslieť flow, aby nevznikali prepojenia, ktoré nemajú existovať (paranoidný scenár: niekto prepojí dlh na inú firmu a zažaluje nás)
prípadné systematické problémy hlásiť inštitúciám (napr. zmapovať duplicitné firmy a právnické osoby v RPO - rovnaké mená, nezmyselné záznamy - chybné dátumy, sumy…)

balgava · April 30, 2018, 10:30pm

Ako chcete riesit prenasanie zodpovednosti za kvalitu dat z uradov na koncovych pouzivatelov ako v ITMS?

Za správnosť zaevidovaných dát je zodpovedný používateľ spolu s Riadiacim/Sprostredkovateľským orgánom. Nedisponujeme podkladmi k verejnému obstarávaniu, nevieme posúdiť korektnosť dát.

VO a zmluvy VO si spravujú žiadatelia, my správnosť hodnôt zadaných v aplikácií nekontrolujeme, ani nemôžeme meniť – sumu si môže upravovať žiadateľ na zmluve VO cez aktualizáciu, kontroly vykonávajú RO.
V budúcnosti plánujeme na riadiacom výbore dohodnúť, že im budeme zasielať podnety s nekorektnými údajmi, ale úpravu musia riešiť oni.
https://itms3.axonpro.sk/browse/ITMSC-11809

Vo veci nahlasenych problemov v subjektoch a dodavateloch som za 4 mesiace nedostala ziadnu spatnu vazbu
https://itms3.axonpro.sk/browse/ITMSC-11851
https://bi.ekosystem.slovensko.digital/question/107

jsuchal · April 30, 2018, 10:55pm

Tak ako to riesime teraz, robime si vlastnu konsolidovanu vrstvu a zdrojovych dat sa nechytame. Ale ano, toto je dobra poznamka a nema to jasnu odpoved. Spominalo sa to aj na jednej pracovnej skupine, ze toto bude potrebne vyriesit, aby data museli opravit. @lubor je v lepsich datach, mozno to riesili aj tam. Extremny, ale realny pripad z RPO: Namietali zle data zivnostnika, prepadlo to cez statisticky urad (RPO), na zivnostensky (MV), potom na sudcu? co to zapisoval a ten prehlasil, ze on nie je zodpovedny co tam clovek napise, len overuje ze to podal a koniec. Teraz akoze budeme nahanat obcanov, ze nech si to sami opravia?

Lubor · April 30, 2018, 11:40pm

To čo Jano píše sa vzťahuje na “naše” údaje, t.j. už mimo úradov. Maximálne vieme dať úradom spätnú väzbu že kde sme našli chybné/podozrivé veci.
V každom registri je zodpovenosť za správnosť údajov a možnosť “opráv” riešená špecificky. Vo všeobecnosti historicky to bolo tak, že úradník do registra iba “prekopíruje” údaje z nejakého iného papiera. Ak je to papier od iného úradu s údajmi z iného registra, tak chyba sa musí opraviť najprv tam a potom doniesť nový papier. Ak je to papier s údajmi od dotknutej osoby, tak opravu si musí spraviť táto osoba novým papierom. Postupne sa to však mení, najmä smerom k “automatickej” propagácii zmien/opráv z jedného registra do druhého.

Ináč ak si občan nechá do registra zapísať vadné údaje, koho by si @jsuchal naháňal na ich opravenie?

peter_gabris · May 1, 2018, 2:24am

To je postoj s ktorým nadšene súhlasím. Okrem iného aj preto, že podľa mojej skúsenosti čisté dáta neexistujú (možno s výnimkou logaritmických tabuliek).

Lepšie urobíme, ak budeme hovoriť o miere čistoty. Ak budú dáta SD čistejšie (skoro určite) ako tie štátne, tak kdekto bude vedieť kam prísť hľadať pravdu. To samo vytvorí tlak na štát - za predpokladu že tam budú aj na politických pozíciách ľudia ktorým záleží na kvalite (diskusia čo sem asi nepatrí, ale modliť sa smieme).

Prepájanie dátabáz a snaženie sa o vyžmýkanie rozumných výsledkov vedú vždy k čisteniu. Takže považujme čistenie dát za trvalý proces. A nezabudnime trackovať (akože sa to povie po slovensky?) zmeny.

robert.kuchar · May 1, 2018, 8:37am

Mozno sa s ekosystemom treba nasetovat tak ako to ma napriklad WAZE. funguje to vyborne. oni netvrdia ze su referencni. Mame predsa aj ine mapy, aj statny dopravny system. Predsa sa ja najviac spolihema na waze. A to prave preto ze hocikto , kto vyklika nejaky prihlasovaci formular, moze editovat mapy, co je celkom zavazna funkcionalita… Obkukat je treba co funguje. A potom povedzme kazdy pondelok poslat referencnym registrom, resp. ich spravcom report. tak pozri sa spravca registra. V nasom Open systeme si ludia opravili za posledny tyzden tieto udaje … a oni si to mozu preverit a opravit riadene v referencnom registri. Rozhodnutie bude vzdy na spravcovi. Ale ked po mesiaci zistia ze kazdy pondelok dostanu davku na 99,9% pravdivych podkladov k opravam, tak sa to rozbehne samo a netreba tomu ani ziadnu reklamu…

jsuchal · May 1, 2018, 7:59pm

Ano na reporty toto staci, ale na to, aby si tie data pouzival vo svojich nebodaj komercnych sluzbach potrebujes trosku ine SLA.

liska · May 7, 2018, 5:59am

Ak by mi niekto dokázal pomôcť, šiel by som do čistenia a prepájania dát cez prepojené dáta (LinkedData). V minulosti sme robili takýto nástroj pre podporu stotožňovania inzerátov, dnes už viac ako nejaký screenshot nevytiahnem.

Prepojené dáta samozrejme nie sú nič zázračné, skôr svojou formou priamo podporujú prepájania všetkého zo všetkým (podľa reálnych vzťahou), a mohli by sa použiť aj existujúce URI identifikátory, ktoré by boli nositeľmi informácie o prepojení údajov naprieč registrami, pričom nad datasetmi týchto mapovaní by mohli existovať rýchle overovacie služby.

Keď sa ešte vrátim k tým inzerátom, tak aby proces stotožňovania bol čo najefektívnejší, resp. rýchlejší, tak to mapovanie prebiehalo najskôr pomocou pravidiel ktoré sú rýchle (ale výrazovo zase slabé), a tým sme odvodzovali najskôr kandidátov na totožnosti. Potom sme na to použili komplexnejší procesing (dopytovanie, porovnávanie), atď, a na záver z toho bol zostavený dataset ohodnotený na mieru totožnosti. K tomu sa potom môže urobiť nejaký jednoduchý frontend, ktorý toto vie sortovať a ponúkať na overenie dané dvojice na potvrdenie totožnosti (owl:sameAs), alebo potrvdenie rozdelnosti (owl:diferrentTo).

Čiže riešenie by ± bolo o tom, že by sa nemenila žiadna súčasná architektúra, pričom tam kde by to bolo nutné by sa pridal URI (či už automaticky by sa vygeneroval alebo doplnil podľa existujúcich potvrdených vazieb), a služby by sa o tento identifikátor obohatili.

Momentálne intenzívne pracujem na novej verzii LOD (LinkedOpenData) verejných dát, verím že do dvoch týždňov to bude vonku, kde budú už loadnuté reálne datasety, nielen príklady.

Ale hlavne si myslím, že použitie URI je najsystémovejší krok, aj z pohľadu použitia jednotného modelu údajov, aj z pohľadu tvorby otvorených dát v najvyššom stupni interoperability (tj. možnosť pracovať s otvorenými dátami ako s jedným celkom).

jsuchal · May 7, 2018, 6:03am

Interne to u nas vyzera zatial takto a funguje to velmi podobne. URI tam nemame lebo ich nepotrebujeme, ale mame ine ID.

liska · May 7, 2018, 6:26am

Vyzerá to gúút

Áno, len toto riešenie “bez globálnych identifikátorov” podľa mňa nie je to úplne najlepšie pre verejné dáta, a hodí sa skôr ako komerčné riešenie. Od štátu čakám, že už pri publikovaní otvorených dát mi zabezpečí použiteľnosť globálnych identifikátorov (dátových prvkov alebo konkrétnych údajov), tak aby boli ľubovoľné údaje v nich už prepojené podľa potreby: vyberiem si datasety ktoré majú prepojené dáta a robím s nimi či už biznis, občanove, resp. transparency orientované aplikácie podľa vlastných cieľov .

Áno, je pravda, že použitie URI v tomto Vašom konkrétnom prípade by samotné ztotožňovanie samo nevyriešilo, skôr naopak, pridalo by Vám asi o problém naviac, ale ako by čas plynul, tak by sa situácia začala výrazne zlepšovať. Ja sa teda o to snažím, aby štát už pri publikácii toto zabezpečil (podobne ako vy čakáte od štátu mnoho iných vecí, ja práve túto).

jsuchal · May 7, 2018, 7:48am

No nie. Pre mna je pridanie URI proste chytim nejaky identifikator napriklad ico (ktore tam mam) a spravim z toho uri. Koniec. Proste to je trivialna vec, ktoru vobec nepotrebujeme lebo je trivialna.

peter_gabris · May 7, 2018, 1:25pm

Váš spor (priateľský) je o primárne vs odvodené dáta. IČO sa (dúfajme) zo dňa na deň nezmení = patrí medzi primárne dáta, URI, ak nie je viazané nejakou záväznou normou, sa zmení hocikedy. Keďže však URI je veľmi pohodlné pre skriptovanie, nech je to “calculated column”.

balgava · May 26, 2018, 4:47pm

Ako prvy systematicky problem by som hlasila nepritomnost jednotneho referencovatelneho identifikatora subjektov v RPO.

Chcete robit aj vlastny konsolidovany (referencny) register subjektov kym sa RPO zobudi?

jsuchal · May 26, 2018, 7:38pm

Toto už robíme. Premiové dáta · Ekosystém.Slovensko.Digital