Pura tekstiä PDF- ja kuvatiedostoista

Onko sinulla PDF - dokumentti, josta haluat poimia kaiken tekstin? Entä skannatun asiakirjan kuvatiedostot, jotka haluat muuntaa muokattavaksi tekstiksi? Nämä ovat joitain yleisimmistä ongelmista, joita olen nähnyt työpaikalla työskennellessäni tiedostojen kanssa.

Tässä artikkelissa puhun useista eri tavoista, joilla voit yrittää poimia tekstiä PDF -tiedostosta tai kuvasta. Poimintatulokset vaihtelevat PDF -tiedoston tai kuvan tekstin tyypin ja laadun mukaan. Lisäksi tulokset vaihtelevat käyttämäsi työkalun mukaan, joten on parasta kokeilla mahdollisimman monia alla olevista vaihtoehdoista saadaksesi parhaat tulokset.

Pura teksti kuvasta tai PDF-tiedostosta

Yksinkertaisin ja nopein tapa aloittaa on kokeilla PDF - tekstinpoistopalvelua verkossa. Nämä ovat yleensä ilmaisia ​​ja voivat tarjota sinulle tarkalleen mitä etsit ilman, että sinun tarvitsee asentaa mitään tietokoneellesi. Tässä on kaksi, joita olen käyttänyt erittäin hyvillä tai erinomaisilla tuloksilla:

Pura PDF

otepdf

ExtractPDF on ilmainen työkalu kuvien, tekstin ja fonttien poimimiseen PDF - tiedostosta. Ainoa rajoitus on, että PDF(PDF) -tiedoston enimmäiskoko on 10 MB. Se on vähän pieni; joten jos sinulla on suurempi tiedosto, kokeile joitain muita alla olevia menetelmiä. Valitse tiedosto ja napsauta sitten Lähetä tiedosto(Send file) -painiketta. Tulokset ovat yleensä erittäin nopeita, ja sinun pitäisi nähdä tekstin esikatselu, kun napsautat Teksti(Text) - välilehteä.

lataa tekstiä

Se on myös mukava lisäetu, että se poimii kuvia myös PDF - tiedostosta, jos tarvitset niitä! Kaiken kaikkiaan verkkotyökalu toimii hyvin, mutta olen törmännyt muutamaan PDF - dokumenttiin, jotka antavat minulle hauskoja tuloksia. Teksti poimitaan hienosti, mutta jostain syystä siinä on rivinvaihto jokaisen sanan jälkeen! Ei suuri ongelma lyhyelle PDF -tiedostolle, mutta varmasti ongelma tiedostoille, joissa on paljon tekstiä. Jos näin käy sinulle, kokeile seuraavaa työkalua.

Online OCR

Online OCR yleensä toimi asiakirjoille, jotka eivät muuntuneet kunnolla ExtractPDF :n avulla , joten on hyvä idea kokeilla molempia palveluita nähdäksesi, kumpi tarjoaa paremman tuloksen. Online OCR sisältää myös hienompia ominaisuuksia, jotka voivat osoittautua käteviksi kaikille, joilla on suuri PDF -tiedosto, jonka tarvitsee muuntaa vain muutaman sivun tekstiä koko asiakirjan sijaan.

Ensimmäinen asia, jonka haluat tehdä, on luoda ilmainen tili. Se on hieman ärsyttävää, mutta jos et luo ilmaista tiliä, se muuntaa PDF -tiedostosi vain osittain koko asiakirjan sijaan. Lisäksi sen sijaan, että pystyisit lataamaan vain 5 Mt:n asiakirjan, voit ladata jopa 100 Mt tiedostoa kohden tilillä.

verkossa ocr

Valitse ensin kieli ja valitse sitten muunnetulle tiedostolle haluamasi tulostusmuodot. Sinulla on pari vaihtoehtoa ja voit valita useamman kuin yhden, jos haluat. Monisivuinen asiakirja(Multipage document) -kohdassa voit valita Sivunumerot(Page numbers) ja valita sitten vain sivut, jotka haluat muuntaa. Valitse sitten tiedosto ja napsauta Muunna(Convert) !

online-ocr-asiakirjat

Muuntamisen jälkeen sinut ohjataan Asiakirjat(Documents) -osioon (jos olet kirjautunut sisään), josta näet, kuinka monta vapaata sivua sinulla on jäljellä ja linkit muunnettujen tiedostojesi lataamiseen. Näyttää siltä, ​​että sinulla on vain 25 sivua ilmaiseksi päivässä, joten jos tarvitset enemmän, joudut joko odottamaan hieman tai ostamaan lisää sivuja.

Online OCR teki erinomaista työtä PDF -tiedostojeni muuntamisessa, koska se pystyi säilyttämään tekstin todellisen asettelun. Testissäni otin Word - asiakirjan, jossa käytettiin luettelomerkkejä, erilaisia ​​kirjasinkokoja jne., ja muunsin sen PDF -tiedostoksi . Sitten käytin Online OCR :ää sen muuntamiseen takaisin Word - muotoon ja se oli noin 95% sama kuin alkuperäinen. Se on minusta aika vaikuttavaa.

Lisäksi, jos haluat muuntaa kuvan tekstiksi, Online OCR voi tehdä sen yhtä helposti kuin tekstin purkaminen PDF - tiedostoista.

Ilmainen online OCR

Koska puhuimme kuvasta tekstiin OCR :stä , haluan mainita toisen hyvän verkkosivuston, joka toimii todella hyvin kuvissa. Ilmainen online OCR(Free Online OCR) oli erittäin hyvä ja erittäin tarkka, kun poimiin tekstiä testikuvistani. Otin iPhonestani pari kuvaa kirjojen, pamfletien jne. sivuista ja yllätyin kuinka hyvin se pystyi muuntamaan tekstin.

ilmainen online ocr

Valitse tiedosto ja napsauta sitten Lataa(Upload) - painiketta. Seuraavassa näytössä on pari vaihtoehtoa ja kuvan esikatselu. Voit rajata sen, jos et halua OCR :ää koko asiaa. Napsauta sitten OCR - painiketta ja muunnettu teksti tulee näkyviin kuvan esikatselun alle. Sillä ei myöskään ole rajoituksia, mikä on todella mukavaa.

Online-palvelujen lisäksi on kaksi ilmaista PDF -muuntajaa, jotka haluan mainita siltä varalta, että tarvitset tietokoneellasi paikallisesti toimivaa ohjelmistoa muunnoksen suorittamiseen. Verkkopalveluissa tarvitset aina Internet - yhteyden, eikä se välttämättä ole kaikille mahdollista. Huomasin kuitenkin, että ilmaisohjelmien tulosten laatu oli huomattavasti huonompi kuin verkkosivustojen.

A-PDF-tekstinpoimija

A-PDF Text Extractor on ilmainen ohjelma, joka tekee melko hyvää työtä tekstin purkamisessa PDF - tiedostoista. Kun olet ladannut ja asentanut sen, napsauta Avaa(Open) - painiketta valitaksesi PDF - tiedostosi. Napsauta sitten Pura(Extract) teksti aloittaaksesi prosessin.

apdf-poimija

Se kysyy sijaintia, johon tekstitulostetiedosto tallennetaan, ja sitten se alkaa purkamaan. Voit myös napsauttaa Optio(Option) - painiketta, jonka avulla voit valita vain tietyt poimittavat sivut ja poimintatyypin. Toinen vaihtoehto on mielenkiintoinen, koska se poimii tekstin eri asetteluissa ja kannattaa kokeilla kaikkia kolmea nähdäksesi, mitkä niistä antavat sinulle parhaan tuloksen.

PDF2-tekstipilotti

PDF2Text Pilot poimii(PDF2Text Pilot)  tekstiä hyvin. Sillä ei ole vaihtoehtoja; lisäät vain tiedostoja tai kansioita, muunnat ja toivot parasta. Se toimi hyvin joissakin PDF(PDFs) -tiedostoissa , mutta suurimmassa osassa niistä oli lukuisia ongelmia.

pdf2teksti

Napsauta vain Lisää tiedostoja(Add Files) ja napsauta sitten Muunna(Convert) . Kun muunnos on valmis, napsauta Selaa(Browse) avataksesi tiedoston. Kilometrimääräsi vaihtelee tätä ohjelmaa käytettäessä, joten älä odota paljon.

On myös syytä mainita, että jos olet yritysympäristössä tai saat käsiisi Adobe Acrobatin(Adobe Acrobat) kopion töistä, voit todella saada paljon parempia tuloksia. Acrobat ei tietenkään ole ilmainen, mutta sillä on vaihtoehtoja muuntaa PDF Word- , Excel- ja HTML -muotoon. Se tekee myös parhaan työn alkuperäisen asiakirjan rakenteen ylläpitämisessä ja monimutkaisen tekstin muuntamisessa.



About the author

Olen laitteisto- ja ohjelmistokehityksen asiantuntija. Minulla on kokemusta työskentelystä sekä Applen tuotteiden (ios) että Googlen Android-alustojen kanssa. Olen myös vahva Edge computing -tekniikan puolestapuhuja, joka on verkko- ja mobiiliteknologian uusin trendi. Taitoni näillä alueilla tekevät minusta ihanteellisen nopeiden, turvallisten ja tehokkaiden sovellusten kehittämiseen.



Related posts