Tento nápad na projekt vznikol interne v Slovensko.Digital, v rámci transparentnosti a silnejšieho zapojenia komunity takéto projekty zverejňujeme pod tagom projekt.
Manažérske zhrnutie: Referenčné registre a datasety dnes obsahujú dáta, ktoré nie sú takmer nijako prepojené. Toto prepájanie je možné robiť len poloautomaticky. Projekt by formou crowdsourcingu umožnil prepájať datasety na naše konsolidované (referenčné) dáta a spoločne vyčistiť niektoré klúčové registre a umožnil pokročilejšie analýzy nad dátami.
Bližší popis: Interne na naše služby používame datasety (RPO, RUZ, IČDPH), ktoré pre služby ako Autoform a Datahub prepájame. Tento proces je poloautomatický a niekedy je navyše aj pre človeka problém zistiť, či nejaké subjekty je možné prepojiť (firmy s rovnakým menom, historické nesediace adresy, menovci…) Nápad bol otvoriť tento tool tak, aby bolo možné pre komunitu pridávať prepojenia a spoločne vytvoriť prelinkované datasety. Prípadne umožniť používateľom napojiť to na svoje datasety (aj privátne - to bol nápad na prémiovú verziu) a umožniť hľadať súvislosti. V ideálnom prípade by tento tool mohol slúžiť (interne alebo podporne) aj samotným úradom, ktoré potrebujú prečistiť registre. A tých bude v najbližšej dobe veľa - viď dopytová výzva v skupine Lepšie dáta
Cieľová skupina: interná potreba SD, investigatívni novinári, úrady so “špinavými” dátami, komunita samotná
Čo dalej?
- zmapovať existujúce riešenia (Talend…) a vyskúšať, či by sa na to nedali použiť rovno
- vymyslieť flow, aby nevznikali prepojenia, ktoré nemajú existovať (paranoidný scenár: niekto prepojí dlh na inú firmu a zažaluje nás)
- prípadné systematické problémy hlásiť inštitúciám (napr. zmapovať duplicitné firmy a právnické osoby v RPO - rovnaké mená, nezmyselné záznamy - chybné dátumy, sumy…)