Start Logga In Skriv Artikel Om Oss
Vad söker du?
Allt om 'FineReader'

FineReader

FineReader är ett OCR-program utvecklat av ryska företaget ABBYY (http://www.abbyy.com/). Version 6 finns i en variant för Västeuropa och Nordamerika som klarar 122 språk (inklusive Esperanto och Fortran!) och en variant för Östeuropa som klarar ytterligare 50 språk.

På Yahoo Groups finns en oberoende sändlista för erfarenhetsutbyte runt programmet, http://groups.yahoo.com/group/FineReader

Se även METAe-projektet, som vill få FineReader att tolka frakturstil.

För Projekt Runeberg används FineReader 6.0 för att tolka text till de digitala faksimilutgåvorna, bland annat av Nordisk familjebok. Då sparas enbart textfiler (.txt) och ingen fontinformation, eftersom den tolkade texten ska användas till korrekturläsning direkt på webben i ett system som ungefär liknar wiki.Arbetsgången är som följer:

  • Boken scannas utan FineReaders medverkan som TIFF G4-filer som numreras 0001.tif, 0002.tif, o.s.v.
  • Starta FineReader
  • Om möjligt, öppna en befintlig sats/batch för en liknande bok. Då ärvs alla språkegenskaper från denna.
  • Välj ny batch / sats för den nya boken. Placera satsen i samma filkatalog där TIFF-bilderna ligger.
  • Ställ in tolkningsspråket på svenska
  • Välj menyn tools view dictionaries Swedish View
  • Se till att ordlistan har tillägg av de gammalstavade ord som krävs för gamla svenska texter. Om så inte är fallet, importera dessa från textfil. Var noga med att inte lägga till ord som ätt, söm, fär, holl i ordlistan, eftersom dessa förvillar tolkningsmaskinen så att den läser fel på de vanliga orden att, som, får, höll. (Fär och holl är förkortningar för färöisk och holländsk.)
  • Välj öppna fil (open image), välj rätt filkatalog och markera alla inscannade TIFF-filer som hör till boken.
  • Starta tolkningen med "read all". Låt den gå tills den är färdig. Det kan ta timmar, beroende på bokens omfång och datorns hastighet.
  • Välj spara:
    • Välj spara som fil.
    • Välj att behålla fonter och fontstorlekar (Retain font and font size)
    • Välj att inte spara bilder.
    • Under Format settings:
      • Välj TXT
      • Välj teckensnittet ISO Latin-1.
      • Välj att inte behålla radbrytningar
      • Välj att inte lägga till i slutet av filen
      • Välj att inte använda sidbrytningstecken (#12)
      • Välj att lägga en tomrad mellan stycken. (nu är Format settings OK)
    • Välj att spara alla sidorna (nu är Save Wizard OK)
    • Välj rätt filkatalog att spara i, samma där bilderna ligger.
    • Välj spara som Text Document *.txt (redan ifyllt)
    • Välj att spara alla sidorna (redan ifyllt)
    • Välj att namnge textfilerna som bildfilerna. De kommer då att namnges 0001.txt, 0002.txt, o.s.v.
    • Tryck OK.
  • Egentligen hade man velat behålla radbrytningar men sammanföra avstavade ord. Detta alternativ erbjuder dock inte FineReader 6.0, utan i stället väljer vi att inte behålla radbrytningar. I stället försöker vi återföra dem under Unix. Det betyder att radbrytningarna hamnar på godtyckliga ställen, men det hela ger ändå ett användbart och snyggt resultat. Gå till filkatalogen där textfilerna ligger och kör följande Unix-kommando:
for f in *.txt ; do fmt -55 -s <$f | sed s/$/^M/;s/^M^M/^M/ > foo && mv foo $f ; done

Redigera?

Artikeln skriven 2009-01-16 av Learning4sharing

Inga kategorier för denna artikel än...

Vi behhöver hjälp att kategorisera våra artiklar. Kan du skriva ett nyckelord för denna artikel? Du kan skriva upp till 3 olika nyckelord för denna artikel, vi uppskattar din hjälp!

Skriv nyckelord som du tycker beskriver denna artikel på ett bra sätt. Du kan ange 3 olika nyckelord för denna artikel, max 20 tecken per nyckelord.

  1. Lägg till fler
    Skriv in svaret på frågan: 8+7

Intresserad av fler artiklar?

O du ärans konung
Clara OCR
METAe
Förunderligt samt märkligt
O du saliga
Besman
Kristus är uppstånden
I Jesu avtryck är tryggt att vandra
O, att den elden redan brunne

Senaste sökningarna

lasse åberg har fått 1561 sökningar. Den senaste gjordes 2019-12-12 12:57:00.

LANDSKOD har fått 1562 sökningar. Den senaste gjordes 2019-12-12 12:56:52.

hellenism har fått 1276 sökningar. Den senaste gjordes 2019-12-12 12:55:36.

frank sinatra har fått 1020 sökningar. Den senaste gjordes 2019-12-12 12:54:46.

isotop har fått 1374 sökningar. Den senaste gjordes 2019-12-12 12:52:47.

drott har fått 1085 sökningar. Den senaste gjordes 2019-12-12 12:51:26.

positivism har fått 994 sökningar. Den senaste gjordes 2019-12-12 12:51:15.

ean har fått 1245 sökningar. Den senaste gjordes 2019-12-12 12:51:03.

Augusto Pinochet har fått 922 sökningar. Den senaste gjordes 2019-12-12 12:51:00.

freja har fått 1403 sökningar. Den senaste gjordes 2019-12-12 12:51:00.

legering har fått 1048 sökningar. Den senaste gjordes 2019-12-12 12:50:53.

liminal har fått 1149 sökningar. Den senaste gjordes 2019-12-12 12:50:49.

Designed by: template world
Learning4sharing.nu
All Rights Reserved. 0.09 SEK

Logga in

Välkommen att redigera och skriva nya artiklar!

Ingent Konto?

Skaffa konto för att redigera och skapa nya ariklar Nytt Konto.

Ny Användare

Välkommen att redigera och skriva nya artiklar! Skapa konto nedan.


Ett verifieringsmail kommer att skickas till din E-post som du måste öppna och verifiera din E-post med

Lägg till artikel

Du är inte inloggad.

Logga In eller Skapa konto.