Repná kampaň a linux

Že čo majú spoločné? Nič.
Nadpis mal pritiahnuť pozornosť. 🙂

Kedysi som čítal, veľa čítal, vlastne denne som mal v ruke knihu. Dnes už na to akosi nieje čas. V počítači však stále mám nejaké texty vo formáte eknihy, pdf, html, txt. Pri každom preinštalovaní systému zálohujem a obnovujem kopu textov rôzneho zamerania ale neprečítam ani riadok, čo ma celkom mrzelo. Všimnite si, že je to v minulom čase.

Nejaký piatok nazad, som mal podobnú dilemu s fotkami, na ktoré sadal prach v krabiciach od topánok, v starých fotoalbumoch a ešte viac ich zaberalo miesto na HDD v digitálnej podobe. Ako som sa s tým vyrovnal, som popísal v článku „Fotíme len do šuflíka?“

Takže ako na tieto texty, knihy, … ?
Ako vodič kamiónu strávim mnohé noci za volantom (teraz na repnej kampani 🙂 ).
Pri krátkych trasách je to v poriadku ale dlhé sú často únavné a človeka to ťahá spať. Tu je priestor pre tieto texty.

1 Ako texty ozvučiť?

Mal som doma jeden nevyužitý tablet, hrozne pomalý, ale vravím si, že text snáď zvládne. Tak som všetky texty hodil na sd kartu a hľadal aplikáciu. Hľadal a našiel. Cez APKpure som si stiahol @Voice Aloud Reader
Veľmi príjemný ženský hlas, na hony vzdialený surovému strojovému čítaniu. Tablet som káblom pripojil na AUX vstup autorádia alebo cez bluetooth, podľa možností. Ozvučené by to teda bolo.
Ale ….

2 Aké texty mu podstrčiť?

Ako som písal, tablet je hrozná šunka. Aplikácia prečíta pdf, eknihy, html, txt, … Všetky si konvertuje do nejakého jednoduchého formátu, tak som si povedal, že mu naservírujem dokumenty vo formáte txt. eKnihy som neprevádzal, to nemá zmysel. Hromadu textov som mal z rôznych stránok vo formáte pdf. Tieto previesť do txt je otázka pár kliknutí.
V Thunare som si urobil „vlastnú akciu“ – Convert all pdf to txt, kde príkaz je:
for file in *.pdf; do pdftotext -layout "$file"; done
a podmienka zobrazenia:
priečinky a ostatné súbory
#v príkaze vyššie vidíte, že si vyžaduje pdftotext, ten je súčasťou balíka poppler-utils, ak ho nemáte, tak si ho nainštalujte

Chcem vás dôrazne varovať, pdf-ka určené na konvertovanie si dajte do samostatného priečinka. Príkaz bez upozornenia prevedie všetky pdf súbory behom chvíľky. To nemusí byť vždy žiaduce.

Pdf súbory sú skonvertované, aplikácia si jeden načíta a …. hrôza. To sa nedá počúvať.
Väčšinu pdf súborov som si vytváral z textov na internetových stránkach a do tejto chvíle mi ich vzhľad nevadil.

3 Ako vytvoriť pdf súbor, ktorý sa bude dať počúvať?

Stránku v prehliadači (FF) si takmer vždy dám do zobrazenia „čítačka“ aby tam bol len článok.
Pdf som vytváral pomocou doplnku vo Firefoxe „Save PDF“ .
Je to šikovné rozšírenie, ale na každú stránku pridá hlavičku a pätu, čo je pri čítaní maximálne otravné!!! Aplikácia totiž prečíta každú čiarku.


Riešením je iný doplnok: save-as-pdf-from-context-menu
S týmto doplnkom je to o dosť lepšie.
Dá sa ešte použiť tlač do súboru (ctrl+p). V dialógu si ale nastavte, aby netlačil hlavičku, okraje a pozadie, podľa situácie. Ak ste si článok neprepli do zobrazenia „čítačka“, v tlačovom dialógu je teraz možnosť nastavenia „Formátu“ – originálny alebo zjednodušený. Originálny nechám, ak chcem mať v pdfku z nejakého dôvodu aj diskusiu pod článkom
Doplnok save-as-pdf-from-context-menu má ale jednu chybičku, nedáva k vytvorenému súboru koncovku. Bez koncovky .pdf ho ale Thunar neskonvertuje.
Takže všetky pdfka v tom adresári hromadne upravím, pridám koncovku, odstránim nežiaduce znaky ( |, !, ?, :, ….)
Ďalším vhodným krokom je spojiť pdfka, ktoré sú „seriál“ do jedného, nech ich nemusím samostatne otvárať.
V článku „PDF na našich stránkach“ sa spomína napr. konzolový pdftk alebo pdfmod s grafickým rozhraním. Šikovný je aj „PDF Arranger“


Takže,

  • nainštaloval som si doplnok save-as-pdf-from-context-menu
  • uložil pdf do zvláštneho adresára, kam som nakopíroval aj všetko, čo chcem upraviť
  • pridal príponu, odstránil nežiaduce znaky
  • spojil, čo patrí k sebe
  • a môžem konvertovať na txt

Takto vytvorené texťáky si dám na kartu v tablete a slečinka môže spustiť.
Po skúsenostiach ešte pridám poznámku:
Texty mám tematicky rozdelené v podadresároch. Je celkom vhodné, všetky súbory v podaresároch spojiť do jedného dlhého, nech sa vykecáva „až do rána bieleho“

4 Zdroje textov


Tak toto je na dlhú debatu, záleží hlavne od zamerania.

Beletria, romány, detektívky, …, tie sa dajú stiahnuť hotové na mnohých stránkach, ako eknihy v rôznych formátoch. Kto hľadá odborné knihy, náučnú literatúru, literatúru faktu, náboženskú tematiku, dejiny, …., ten musí trochu viac hľadať, triediť a vytvárať si svoje texty. Na mnohých tematických stránkach sú aj vzácne knihy k voľnému stiahnutiu, treba hľadať.

niekoľko zdrojov:
https://www.snk.sk/sk/domov/59-edicna-cinnost.html?start=10
https://www.matrix-2001.cz/
https://www.historie.hranet.cz/
https://digitalna.kniznica.info/browse
https://www.history.sav.sk/index.php?id=e-kniznica
https://archive.org/
https://www.pamiatkynaslovensku.sk/bibliografia
https://dai.fmph.uniba.sk/~filit/fil/fil.html
https://www.library.umb.sk/elektronicke-zdroje/volne-pristupne-e-zdroje.html
https://eudocs.lib.byu.edu/index.php/Main_Page
https://www.lib.tuke.sk/Library/Home/DigitalLibrary
https://www.library.sk/arl-umb/sk/vyhladavanie/
https://www.kellscraft.com/textcontents.html
https://royallib.com/book/orbini_mavro/slavyanskoe_tsarstvo_istoriografiya.html
https://www.kramola.info/books/letopisi-proshlogo
https://bookscafe.net/book/orbini_mavro-slavyanskoe_carstvo_istoriografiya-248350.html
https://texty.citanka.cz/
https://slovnik.juls.savba.sk/
https://www.eknihovna.cz/eknihy-zdarma/
https://www.databazeknih.cz/eknihy-zdarma-ke-stazeni?orderBy=&pageNumber=1&genreId=69
https://zlatyfond.sme.sk/autori

Ďalšie texty nájdete na ulozto.sk (cz) a.i.
Ak máte zdroje na knihy, ktoré nie sú veľmi na očiach, podeľte sa

Štítky .Záložka pro permanentní odkaz.

Autor: archiv

články, jejichž autoři požádali o smazání účtu

13 reakcí na Repná kampaň a linux

  1. broukal říká:

    Zaujimavy navod, ale mam par vyhrad… Ked uz si napisal prve dva prikazy, mohol si napisat aj prikaz pre hromadnu upravu na odtranenie ciarok atd, je to docela podstatne…
    Este ak mas znalosti mohol by si doplnit ako na to v pripade ze doplnok vytvara pdf, ale vo formate obrazku, takze by to chcelo nejaky OCR program, alebo nieco podobne…

  2. kamowski říká:

    odstránenie tých znakov, celých zhlukov slov robím v thunare
    ctrl+a vyberiem všetky súbory (alebo ctrl a výber myšou,…) a potom len F2
    tam je celkom dosť možností
    kto nemá thunar, skúsil by som pyrenamer
    https://launchpad.net/pyrenamer/+packages
    alebo niečo podobné
    pdf vo formáte obrázku? to kde sa deje? simple scan to dokáže ale prestaviť na pdf je jedno kliknutie pri ukladaní
    ale, ak už to tak máš:
    apt install tesseract-ocr libtesseract-dev tesseract-ocr-deu tesseract-ocr-slk
    nainštaluj si jazyky, ktoré potrebuješ
    napr, jazyk v nemčine bude:
    tesseract -l deu textvnemčine.png textvnemčine.txt
    takto to mám uložene, tak som to niekedy robil 🙂

    • broukal říká:

      Pdf vo forme obrazku robi doplnok pre FF napriklad Fireshot ci awesome screen shot… Parada ten simple scan ma nenapadol, to je dobra volba… Uz som par krat nadaval ze vsetky screen shoty mam sice ako pdf, ale text z nich sa neda kopirovat lebo su vo forme obrazku, tak si idem naistalovat ten spominany doplnok z textu… Dik za odpovede a kludne ak sa ti podari to ucelit to dopln aj do clanku…

    • kamowski říká:

      musím sa opraviť
      simple scan to síce ukladá do „.pdf“ ale je to needitovateľné, vlastne je to obrázok, ako aj tie tvoje pdf-ka
      riešením je ten tesseract ale najprv musíš takéto „pdf“ previesť do napr. .png
      to som robil cez masterpdfeditor
      súbor-exportovať-obrázky
      iste niekde nájdeš aj príkaz do terminálu, ak by si veľmi chcel
      🙂

      • broukal říká:

        No skusil som ten simple scan a neako som ho nedokazal prinutit aby vobec otvoril nejaky dokument, sustavne to pýtalo pripojenie scaneru, takze tadial cesta nevedie… Vyskusam ten tesseract… Co sa tyka extrahovania obrazku z pdf „ktore uz je same o sebe obrazkom“ to by malo ist priamo, len dat ulozit obrazok ako -pravym tlacitkom mysi, teraz som to vyskusal a ide to, takze zjednusenie mame na svete bez dalsieho programu… 😉

  3. kamowski říká:

    hore spomínaný „Save PDF“ má tlačítko, to je super pohodlné a rýchle, na všetky návody, finty, ťaháky, …. to používam
    na texty, ktoré chcem počúvať použijem ten druhý doplnok save-as-pdf-from-context-menu
    ide len cez kontextové menu ale … 🙂

  4. vxmery říká:

    No veru, nadpis pozornosť pritiahol 🙂

  5. Uživatel říká:

    Dlouho používám v tabletu aplikaci PocketBook. Umí číst e-knihy, .txt i .PDF soubory, je to takové „vše v jednom“. Hlasově jsem jí porovnával s aplikací Voice Aloud Reader a zdá se, že používají stejný ženský hlas (Google). Doporučuji …

  6. Adem říká:

    Na Linux PC jsem, inspirován článkem, vyzkoušel pro Firefox (má pracovat i v Chrome) doplněk Read Aloud.
    Pro srozumitelný ženský hlas je potřeba vybrat „Google Translate Czech“. Mám přihlášení ke Google, přesto chtěl potvrdit ověřovací(?) script – vylistuje jej v dalším panelu, potvrdíte.
    Potom už čte opravdu hezky ze stránek.

    • Labeent říká:

      Ahoj, nastavil jsem. Čte mi to chlap a čeština je taková hodně umělá.
      Žádné přihlášení to po mě nechtělo. Dělám něco špatně?

  7. Uživatel říká:

    Adem: Doplněk jsem také vyzkoušel, ale nepodařilo se mi zprovoznit češtinu. Kupodivu slovenština jde dobře…

    Kamowski: tablet není zrovna ideální na čtení knih, takže tam mám spíše věci v .PDF – manuály, návody starší časopisy VTM a pár volných knih. Jinak knihy čtu radši v papírové podobě.

  8. Uživatel říká:

    Adem: Doplním..

    Funguje v pořádku (na Linuxu). Díky. Ty problémy byly na notebooku s Windows.