Nápad: Tool na anonymizovanie dát

maly · April 27, 2018, 11:55am

Úloha：Vytvoriť tool, ktorý z PDF správnym spôsobom vyčierni citlivé údaje.

Rôzne inštitúcie, najmä malé obce, majú problém pri zverejňovaní dokumentov. Vyčierňovanie - anonymizácia citlivých údajov je pre neinformatika komplikovaná vec. Občas to skončí čiernym obdĺžnikom nad textom.
Veľmi podobný tool by sa hodil aj nám do portálu Chcemvediet.sk – chceli by sme zverejňovať odpovede na infožiadosti, ale chceme chrániť identitu pýtajúceho sa.

Vstupom by boli dáta (string), ktoré treba vyčierniť. Napr. “Janko Mrkvička” + PDF dokument, ktorý tieto dáta obsahuje, často aj v obrázkovej podobe (sken rozhodnutia).
Výstupom by bol dokument, v zachovanej kvalite, ale s vyčiernenými dátami, samozrejme bez možnosti citlivé dáta nejakým trikom získať. Keďže v procese sa zrejme použije OCR, bolo by fajn mať výstupné PDF vo formáte “text pod obrázkom”, keď je možné vidieť pôvodný naskenovaný dokument, ale zároveň hľadať /selektovať text, ktorý tam je.
Tool by sa neskôr mohol rozšíriť napr. importovaním všetkých krstných mien/priezvisk alebo patternov typu “\d{6}/\d{4}”, ak úradník potrebuje odstrániť všetky mená / rodné čísla a pod.

Príklad:

Falco · April 27, 2018, 3:15pm

Ako napad dobre. Otazka je co pouzit. Ked si vezmeme OCR skrz google api, tak CZ, SK jazyky podporovane.

Najnovsie info:

April 6, 2018 - The following beta features are available in API version v1p2beta1:
Support for PDF and TIFF files in document text detection.

Takze PDF podporovane.

Uz je otazny len pricing:

Price per 1000 units
First 1000 units/month - Free (co by minimalne na zaciatok postacovalo)
Units 1001 - 5,000,000 / month - $1.50/month (za kazdych zacatych 1000ks)

Mate niekto skusenosti s inym API podporujucim SK a PDF?

edit: ratajme vsak s nejakou chybovostou detekcie, v tomto pripade treba uvazit ako dalej s procesom publikacie, kedze kazdy dokument by musel byt nasledne niekym zvalidovany a musia byt definovane akcie pre pripad, ze dokument nebude dostatocne alebo bude chybne spracovany, inak povedane, niekto ho bude musiet aj tak dofixkovat

jan.garaj · May 1, 2018, 10:25am

Google ma na to hotove API https://cloud.google.com/dlp/ - kratke demo https://www.youtube.com/watch?v=GXTCIDbLdfw. Niekto by v ramci free tier mohol vyskusat s akou uspesnostou to zvlada slovenske mena.

filipb · May 1, 2018, 1:27pm

Ahojte,
Mám k dispozícii nejaké nástroje pre anonymizáciu v slovenčine tu:
http://nlp.bednarik.top/anonymizer/
Dá sa to spojiť s tesseractom (mám odskúšané) a následne by bolo ale treba implementovať spätné vyčierňovanie v dokumentoch (nemám odkúšané, ale nemusel by to byť problém)
Čo to vyžaduje, je 200-1000 ručne anonymizovaných dokumentov, aby sa to naučilo v ktorom kontexte je potrebné anonymizovať a v ktorom nie v danej doméne. Na vytvorenie takej množiny existuje celkom šikovný nástroj http://brat.nlplab.org/.
Úspešnosť v závislosti od kvality trénovacej množiny a množstve skrytých pravidiel pri anonymizácii sa pohybuje niekde na úrovni človeka, ktorý sa ponáhľa (keby niekoho zaujímali presné čísla môžem poslať bližšie info). Keby sa to nepoužilo na automatickú anonymizáciu kvôli nízkemu pokrytiu, vie to minimálne označovať jednotlivé entity ako mená, priezviská, adresy, dátumy narodenia, rodné čísla a pod.