gPDFText: Rychlé extrahování textu a převod PDF souborů na text v Linux Mintu

[singlepic id=330 w=220 h=100 float=right]Aplikace gPDFText je textový editor v GTK +, který otevírá PDF dokumenty, převádí textový obsah do prostého textu ASCII. Dále lze jeho pomocí obnovovat původní odstavce, odstranit nežádoucí řádky a umožnit snadnější náhledy pro čtenáře. Pro leckterý stažený PDF soubor elektronické knihy čtenáři používají i nadále formát A4 (i pro jiné písemnosti v podobné velikosti). Když se potom PDF zobrazí na čtečce, potřebná velikost textu je při použití zoomu pro zobrazení celé stránky příliš malá. Export PDF do textu způsobuje problémy se zalamováním řádků. Přidány bývají také nástroje, které v elektronických PDF knihách označují záhlaví a zápatí stránky pro ztížení jejich konverze. Program gPDFText načte PDF, extrahuje text, přeformátuje odstavce do delších útvarů a výsledný text umístí do standardního GTK + editoru, jehož pomocí můžete provádět jeho další další úpravy.

Textový soubor na čtečce e-knih tak neobsahuje nežádoucí řádky a je možné jej přizpůsobit velikosti textu, jež vám vyhovuje. Každou možnost přeformátování lze také vypnout pomocí okna předvoleb v aplikaci gPDFText. Podpora kontroly pravopisu vám rovněž napomáhá k identifikaci oblastí, kde text ještě nebyl plně přeformátován.

 

INSTALACE

Vlastní instalace není nijak složitá, neboť program je ve standardních repozitářích. Lze tedy instalovat zadáním tohoto příkazu v terminálu:

  • sudo apt-get install gpdftext

Druhou možností je pak klasické použití správce software, nebo Synapticu.

 

POUŽITÍ

Po instalaci se aplikace objeví v menu v sekci Příslušenství.

[singlepic id=332 w=420 h=340 float=center]

Chcete-li začít editovat, stačí otevřít PDF soubor v aplikaci gPDFText (Soubor -> Otevřít) a zobrazí se vám pouze text ze zdrojového souboru.

[singlepic id=331 w=420 h=340 float=center]

Poté klikněte na Soubor -> Uložit jako, čímž jej převedete do vámi vybraného textového souboru. Lze si také nastavit výchozí velikost formátu papíru, odstranit číslování stránek (ze zdroje PDF souboru), zda se má použít slovník a další. Všechny mohou být změněny ve volbě Úpravy ->.

[singlepic id=333 w=420 h=340 float=center]

Myslím, že se jedná o šikovného pomocníka v oblasti editace PDF souborů a rovněž je to odpověď na otázku z fóra, jakým způsobem lze v Linux Mintu editovat právě PDF soubory. Chcete-li navštívit domovskou stránku projektu, tak odkaz je zde: http://gpdftext.sourceforge.net/.

Záložka pro permanentní odkaz.

6 reakcí na gPDFText: Rychlé extrahování textu a převod PDF souborů na text v Linux Mintu

  1. Dzob říká:

    Tak nevím, kde je chyba. Nainstaloval jsem tento (gPDFText) program a když chci otevřít PDF soubor, tak to nic neudělá. Nic se neotevře, nenačte.
    Mám linux Mint 17.3. Docela mne to štve, potřebuji převést lékařskou zprávu do Němčiny a nechce se mi vše opisovat slovo po slově. A jiný program na převod PDF do editovatelného textu tu nemohu najít.

  2. takyradějianonymně říká:

    Řešení je docela prosté.
    Také někdy potřebuji nějaké konverze. Už jsem hledáním potřebných programů a jejich potom aktualizacemi a dál řešit když navíc přestanou být (nebo fungovat) přestal ztrácet čas!
    Potřebuješ? Zadej do vyhledávače v internetu něco ve smyslu „convert XXX to YYY“ tedy třeba „convert PDF to text“ a pravděpodobně ti to nabídne nějakou webovou aplikaci, mě zvědavě právě a jako první toto jako příklad:
    http://pdftotext.com/

    a okamžitě jsem cvičně odzkoušel, měl jsem v adresáři zapomenutý celý jeden v PDF časopis 7 MB a byla to záležitost okamžiku vlastně také rychlosti internetového spojení pro odeslání souboru PDF a stažení už výsledného textu. K dalšímu zpracování včetně případné k další potom konverzi mezi formáty pro text. To už by ti měl stačit LibreOffice. Ten LibreOffice také dokáže otevřít PDF soubor a „dostaneš“ se do textu ovšem jen tak na opravdu drobné korektury, rozhodně nikoli pro práci kterou popisuješ.
    Jo, k tomuto způsobu mohou být diskuze (jako k principu) také z pohledu ochrany soukromí a možná bezpečnosti, ale to bych tady v tomto případě tj. když potřebuješ jako já obvykle jednorázovky tak na běžné věci neřešil.

  3. kamowski říká:

    tak som si to nainštaloval, tak isto v LM 17.3 a bez problémov to funguje
    funguje z príkazového riadku, tak isto aj z ponuky Menu, kde je položka gPDFText ebook editor
    môžeš napísať ako si postupoval?

  4. hank říká:

    Dzob: Nemohlo to být tak, že někdo naskenoval text do formátu jpg (nebo jiné bitmapy) a pak obrázek převedl do pdf?

    Mám úplně stejný problém.

  5. hank říká:

    Ještě doplním: Ověřil jsem si tuto variantu pomocí on-line konvertoru. Program odmítl převést pdf soubor na txt, ale na doc ho převedl v pohodě, načež jsem po jeho otevření v LibreOffice zjistil, že text byl skutečně nejdřív zkopírován do obrázku. Takže bohužel – smůla… 🙁 Ale nepřekvapuje mě to, ve spoustě firem se s dokumenty určenými k rozmnožení a následnému tisku na papír takto zachází – firemní síťové tiskárny mají většinou i skenovací funkce a uložené adresáře účastníků v síti. Poslat papírový dokument kolegovi v síti je nejjednodušší tak, že ho nejdřív naskenuju.