PDF – Extrakce dat v Mintu

pdf1Soudce stojí často před případem, který už v samotném zadání je patová situace.

Brouk financoval Pytlíkovy studie s podmínkou, že dostane zaplaceno až Pytlík, takto právník, vyhraje svůj první proces. Pytlík však zanechal praxe a o placení se nestaral, proto se Brouk obrátil k soudu o právo.

„Mně je to jedno, jak soud rozhodne,“ povídá Brouk, „když prohraji, vyhraje Pytlík a podle ujednání mi musí zaplatit. Když vyhraji, prohrál Pytlík a podle rozsudku musí platit.“

„Mně je to také jedno, jak to dopadne“, prohlásil Pytlík, „neplatím ani když prohraji, ani když vyhraji. Vyhraji-li spor, jsem rozsudkem zproštěn placení a závazků. Když prohraji, nejsem podle smlouvy povinen platit, neboť mám zaplatit až když vyhraji.“

Učení je pouze nástrojem, inteligence pak zručností, jak s tím nástrojem zacházíme. Tak i s chatrným nástrojem, trochou naučení a škol, je možné s vyspělou inteligencí vykonat mnoho. Shodou okolností jsme na tom zrovna lépe než onen soudce, protože následující aplikace nám život může jen zjednodušit:

Každý, kdo často pracuje s textem resp. text+obrázky, má určitou zkušenost s extrakcí dat z PDF souborů. V Mintu máme několik aplikací, se kterými se dá táto činnost úspěšně realizovat. Protože není zatím možné se rychle dohledat, co všechno jsme už na našem webu o této činnosti publikovali, dám tip na extrakci v Terminálu. Každá aplikace, se kterou se tato činnost dělá, má svoje zvláštnosti, někdy i omezení. Není vyloučeno, že podobný článek jste už i u nás četli, na jiných webech určitě, a to už hodně dříve, jinak bych o tom ani já nevěděl.

Nejdříve bychom si měli zjistit, zdali máme v nainstalovaném Mintu potřebnou utilitu, bez které to nepůjde.

Ta se jmenuje „poppler-utils“; nevím zda je v základní instalaci, nebo se doinstaluje později s nějakým programem – v MINTu_13 ji mám, asi bude i v dalších verzích. Když nevíte jak to zjistit, tak si spusťte Správce programů, dejte vyhledat :

„poppler-utils“ a fajfka v zeleném kroužku ukáže, že ji v systému máte. Pokud tomu tak není, tak si ji přímo ze Správce programů nainstalujte.

V Terminálu se instaluje následovně:

Příkazy terminálu:
sudo apt-get install poppler-utils

Následujícím příkazem se dají vyextrahovat všechny obrázky z „pdffile.pdf“ a vložit je např. do  adresáře /home/<username>/pdfimages/.

Příkazy terminálu:
pdfimages -j pdffile.pdf ~/pdfimages/

Obrázky z PDF dokumentu, JPEG soubory se ukládají i s příponou PPM pokud uvedete „-j“ (pro JPEG) parametr.

K extrakci obrázků nutno poznamenat, že získané JPEG soubory jsou vygenerované s vlastním číslováním, které začíná pomlčkou. Některé obrázky (zpravidla pomocné čáry, torza a pozadí) si přiřadí příponu PPM, neznámo pod jakou podmínkou a proč. Nicméně prohlížet se v prohlížeči dají.

Výhodou této metody je to, že se extrahují originální obrázky vložené do PDF, které mohou být větší než obrázky, které jsou v dokumentu k vidění, protože některé části obrázku mohou být zakryté zbytkem „layoutu“. Může to být i užitečné. Většinou to bývá ale naopak, záleží na zdroji.

Následující příkaz, který poznáme už delší dobu, zase extrahuje aktuální text a vloží ho do souboru se stejným jménem, ale s příponou TXT (pdffile.txt) do stejného adresáře jako původní soubor.

Příkazy terminálu:
pdftotext pdffile.pdf

Zde je nutno dodat, že text, který se v PDF souboru nachází přímo v obrázku, ten se samozřejmě tímto postupem získat nedá, protože je jeho neoddělitelnou součástí. Extrahuje se pouze obsáhnutý reálný text, který je v souboru. Text z obrázků se ale dá získat jinak, no to bychom museli použít OCR program, ale to už je jiné povídání…

pdf2Není bez zajímavosti, že není PDF jako PDF, o čemž se už mnozí přesvědčili na vlastním monitoru. Svou roli tu hraje původní zdroj zpracovaného textu nebo obrázků. Jsou to přirozeně texty s diakritikou, české a slovenské, anglickým je to jedno. Podle mé zkušenosti jedná se nejčastěji o dokumenty, které spatřily světlo světa v aplikaci Microsoft Word 2007, nebo podobné verzi, byly uložené jako PDF, ale protože byly napsané v kódové stránce 8859-2, tak si to sebou nesou jako dědičnou chorobu. Další zpracování je už v kódové stránce UTF-8 a při převodu na čistý text se písmenka s diakritikou zobrazí špatně. Textový dokument je tak dokonale nepoužitelný.

Další kandidát na smetiště je pak PDF soubor, který vznikal postupnou editací a úpravami původního souboru nebo skenováním a to do té míry, že už ztratil své původní vlastnosti a je už jen nějakým vektorovým postscriptem. Těžko předpokládat, že by si s ním poradil i Brouk Pytlík…

Štítky , , , , .Záložka pro permanentní odkaz.

Komentáře jsou uzavřeny.