Hľadanie v asice súboroch

Dobrý deň,

pracujem vo firme kde nám prichádza enormné množstvo správ, ktoré potrebujeme archivovať, pretože el. schránka je neustále zaplnená. Uvažujeme o riešení, že správy si po jednom stiahneme do počítača, nakoľko pri preposielaní sa pošle iba pdf súbor a my potrebujeme archivovať podpísané asice súbory. Problém je v následnom nájdení konkrétnych súborov spomedzi ostatných x tisíc správ, pretože v asice súboroch počítač nevie hľadať (v pdf to samozrejme funguje bez problému, no ako som už spomínal, potrebujeme súbory aj s podpismi). Mal by niekto nejaký nápad ako by sa to dalo šikovne vyriešiť, aby sme vedeli hľadať aj v asice súboroch bez toho aby sme museli po jednom vyťahovať z asice pdf súbory, resp. sťahovať iba pdf?

Používame macOS, momentálne verziu 11.2.3

Vopred Vám ďakujem(e) za každú dobrú radu a pomoc!

Cez sluzbu www.govbox.sk vieme poslat vsetko co mate v schranke, posielame vsetko ako asice aj ako pdf (ak je to vo vnutri).

Ďakujem za rýchlu odpoveď. V prípade, že sa jedná o 20 správ nie za mesiac, ale niekedy za deň, predpokladám nie je prekážka na využívanie Vašich služieb, rozumiem tomu správne? Sú tam nejaké poplatky vyššie, keď sa jedná o viac správ ako 20 za mesiac?

Ak by sme sa rozhodli predsa len manuálne sťahovať asice súbory, akým spôsobom by sa dalo v nich hľadať? Aká by bola alternatíva (vzhľadom k tomu, že sa jedná o citlivé údaje)?

Vo FAQ píšu:

Čo ak mi príde viac ako 20 správ za mesiac?

Ak to očakávate už dnes, kontaktujte nás na podpora@govbox.slovensko.digital. Ak sa to stane po spustení služby, ozveme sa Vám my. Samozrejme, správy Vám doručíme, nemusíte sa obávať.
(Často kladené otázky · GovBox)

Ak dobre rozumiem chces ukladat subory asic a prehladavat ich obsah.
Tu je trochu problem s tym ze co chces vyhladavat. Ci podla mena suboru, alebo priamo uz v obsahu toho suboru - napr. pdf. mena suborov v asic kontaineri su dost pofiderna zalezitost a zavisia od toho aku pozornost vyvojar, resp. odosielajuca strana venovala nazvu suboru (ak ma nazov napr. priloha1.pdf moc sa z nazvu clovek nedozvie).
Cize ak by islo o prehladavanie obsahu asic suborov musi sa napisat aplikacia ktora asic otvori a v podpisanych suboroch (xml, pdf, txt) vyhlada pozadovany text. Pdf musi byt samozrejme textove, inak by sa muselo urobit aj ocr.

Cennik cely je tu Cenník · GovBox

1 Like

Práve to je ten problém, že názov asice súboru tvoria náhodné písmená a číslice, čiže podľa toho nenájdem požadovaný dokument. Práve preto potrebujem hľadať v asice kontaineri samotný obsah toho pdf súboru čo ten kontainer obsahuje. Poviem príklad. Dôjde nám el. podpísaná správa s príponou asice. Samozrejme asice kontainer obsahuje v sebe pdf dokument. Predstav si ešte 10 000 takýchto asice súborov, kde potrebujem nájsť konkrétne jeden. Keďže podľa názvu neviem nájsť, potrebujem vyhľadať podľa identifikátora ten súbor, ktoré nájdem jedine v pdf dokumente, ktoré sa nachádza v asice kontaineri. Neviem či je to zrozumiteľné

Co mas na mysli pod tymto identifikatorom?

Meno a priezvisko, číslo konania, dátum narodenia, trvalé bydlisko alebo podobné jedinečné identifikačné údaje podľa ktorých nájdem čo hľadám.

OK moznosti je niekolko. Ja by som to riesil pomocou specializovanej utility, ktora by napriklad uz pri ukladani spravy pri jej downloade zo schranky subor asic nielenze ulozila do suboroveho sysstemu, ale zaroven by ho otvorila a vyextrahovala text z v nom ulozenych pdf dokumentov. Text by odkazoval ako na meno pdf dokumentu tak aj na meno suboru asic kontainera. Vyhladavanie podla identifikatorov by sa odohravalo nad tymito textami ulozenymi v lokalnej db a pri uspesnom najdeni identifikatora v extrahovanom texte by nastroj zobrazil priamo subor asic v ktorom sa nachadza pdf dokument ktzoy obsahuje hladany vyraz.

Alebo nastroj ktory bude nad zlozkami s ulozenymi asic subormi rekurzivne otvarat jednotlive asic subory a v nich vyhlada pdf dokument z neho vyextrahuje text a v nom potom bude vyhladavat identifikatory. Subory asic alebo priamo pdf subory s najdenymi identifikatormi zoradi potom do zoznamu aby ich bolo mozne prehliadat rucne.

Sposobov je vela len to treba prisposobit tak aby to co najlepsie zapadlo do vami pouzivanych procesov.

Vďaka za odpoveď.

Dokážem niečo také zautomatizovať aj pomocou Automatora, alebo potrebujem nájsť niekoho, kto mi napíše na tento účel samostatný program?

Nepoznam aplikacie v os mac. Ale podstatne su tieto dve funkcie:

  • asic je obycajny zip archiv a pdf subory ktore potrebujete prehladavat sa vzdy nachadzaju v hlavnom adresari toho zip archivu, cize do podadresarov netreba ist
  • potom v dalsom kroku je vyhladanie textu v pdf tu su dve moznosti pouzit nejaku utiliztu alebo kniznicu na vytiahnutie textu z pdf a v nom potom hladat, alebo pouzit kniznicu pomocou ktorej vyhladat text priamo v tom pdf subore pdf.

Cize ak na tieto ulohy najdes nejake nastroje a vies ich pomocou Automatora vyuzit bolo by fajn. Inak treba najst niekoho kto taketo nieco napise.

Nestacilo by Automatorom rozbalit asic kedze je to zip subor? Vyhladavalo by sa cez Spotlight, ktory si pdf zaindexuje.

1 Like

Ano ak by islo iba o to najst pdf v ktorom sa vyskytuje hladany vyraz, stacilo by pdf subory vybalit z asiku niekam na disk a vyhladavat v nich.
Ale ak ide aj o to ze mam 10 000 asic suborov a v kazdom 1 alebo viac pdf a potrebujem po najdeni pdf zistit v ktorom asiku sa povodne nachadzal, resp. potreboval by som sa dostat k jeho podpisu, uz by to bol problem

Áno, existuje na to úplne jednoduchý spôsob, avšak to by sme nemohli mať štátne IT v takom stave v akom teraz je.

Tu sú linky, ak by sa toho chytil niekdo šikovný, určite by sa to dalo skúsiť pretlacit na správnych miestach :grimacing:

Core Spotlight search Apple Developer Documentation
SearchKit Apple Developer Documentation

macOS poskytuje strašne veľa možnosti, bohužiaľ, na Slovensku sa ide systémom “ale to nejde na Windows, takze to necháme tak, prečo by sme mali uľahčiť život macOS užívateľom, nech pekne krásne trpia tak ako Windowsaci” :grimacing:

PS: Určite by sa ale dalo niečo naskriptovat a robiť to natvrdo manuálne. Niečo v zmysle Hazel + ScriptEditor (AppleScript/Javascript) = stiahnuté súbory v asice formáte z presne určenej domény ukladať do nejakej adresárovej štruktúry, rozbaliť, umiestniť, indexovat, hodiť tam tagy a pod.

Existuje komerčné cloudové riešenie na dlhodobú archiváciu elektronicky podpísaných dokumentov vrátane ASiCE (hoci primárne bolo určené na archiváciu elektronických PDF dokumentov). Je multiplatformové, takže beží aj na MacOS, iOS, Win, Android. Fulltext a dlhodobá archivácia podpísaných dokumentov cez eliptické krivky. Samozrejme eIDAS ready.