Start Logga In Skriv Artikel Om Oss
Vad söker du?
Allt om 'FineReader'

FineReader

FineReader är ett OCR-program utvecklat av ryska företaget ABBYY (http://www.abbyy.com/). Version 6 finns i en variant för Västeuropa och Nordamerika som klarar 122 språk (inklusive Esperanto och Fortran!) och en variant för Östeuropa som klarar ytterligare 50 språk.

På Yahoo Groups finns en oberoende sändlista för erfarenhetsutbyte runt programmet, http://groups.yahoo.com/group/FineReader

Se även METAe-projektet, som vill få FineReader att tolka frakturstil.

För Projekt Runeberg används FineReader 6.0 för att tolka text till de digitala faksimilutgåvorna, bland annat av Nordisk familjebok. Då sparas enbart textfiler (.txt) och ingen fontinformation, eftersom den tolkade texten ska användas till korrekturläsning direkt på webben i ett system som ungefär liknar wiki.Arbetsgången är som följer:

  • Boken scannas utan FineReaders medverkan som TIFF G4-filer som numreras 0001.tif, 0002.tif, o.s.v.
  • Starta FineReader
  • Om möjligt, öppna en befintlig sats/batch för en liknande bok. Då ärvs alla språkegenskaper från denna.
  • Välj ny batch / sats för den nya boken. Placera satsen i samma filkatalog där TIFF-bilderna ligger.
  • Ställ in tolkningsspråket på svenska
  • Välj menyn tools view dictionaries Swedish View
  • Se till att ordlistan har tillägg av de gammalstavade ord som krävs för gamla svenska texter. Om så inte är fallet, importera dessa från textfil. Var noga med att inte lägga till ord som ätt, söm, fär, holl i ordlistan, eftersom dessa förvillar tolkningsmaskinen så att den läser fel på de vanliga orden att, som, får, höll. (Fär och holl är förkortningar för färöisk och holländsk.)
  • Välj öppna fil (open image), välj rätt filkatalog och markera alla inscannade TIFF-filer som hör till boken.
  • Starta tolkningen med "read all". Låt den gå tills den är färdig. Det kan ta timmar, beroende på bokens omfång och datorns hastighet.
  • Välj spara:
    • Välj spara som fil.
    • Välj att behålla fonter och fontstorlekar (Retain font and font size)
    • Välj att inte spara bilder.
    • Under Format settings:
      • Välj TXT
      • Välj teckensnittet ISO Latin-1.
      • Välj att inte behålla radbrytningar
      • Välj att inte lägga till i slutet av filen
      • Välj att inte använda sidbrytningstecken (#12)
      • Välj att lägga en tomrad mellan stycken. (nu är Format settings OK)
    • Välj att spara alla sidorna (nu är Save Wizard OK)
    • Välj rätt filkatalog att spara i, samma där bilderna ligger.
    • Välj spara som Text Document *.txt (redan ifyllt)
    • Välj att spara alla sidorna (redan ifyllt)
    • Välj att namnge textfilerna som bildfilerna. De kommer då att namnges 0001.txt, 0002.txt, o.s.v.
    • Tryck OK.
  • Egentligen hade man velat behålla radbrytningar men sammanföra avstavade ord. Detta alternativ erbjuder dock inte FineReader 6.0, utan i stället väljer vi att inte behålla radbrytningar. I stället försöker vi återföra dem under Unix. Det betyder att radbrytningarna hamnar på godtyckliga ställen, men det hela ger ändå ett användbart och snyggt resultat. Gå till filkatalogen där textfilerna ligger och kör följande Unix-kommando:
for f in *.txt ; do fmt -55 -s <$f | sed s/$/^M/;s/^M^M/^M/ > foo && mv foo $f ; done

Redigera?

Artikeln skriven 2009-01-16 av Learning4sharing

Inga kategorier för denna artikel än...

Vi behhöver hjälp att kategorisera våra artiklar. Kan du skriva ett nyckelord för denna artikel? Du kan skriva upp till 3 olika nyckelord för denna artikel, vi uppskattar din hjälp!

Skriv nyckelord som du tycker beskriver denna artikel på ett bra sätt. Du kan ange 3 olika nyckelord för denna artikel, max 20 tecken per nyckelord.

  1. Lägg till fler
    Skriv in svaret på frågan: 1+4

Intresserad av fler artiklar?

O du ärans konung
Clara OCR
METAe
Förunderligt samt märkligt
O du saliga
Besman
Kristus är uppstånden
I Jesu avtryck är tryggt att vandra
O, att den elden redan brunne

Senaste sökningarna

JEANETTE har fått 1310 sökningar. Den senaste gjordes 2024-05-02 21:04:24.

separation har fått 1230 sökningar. Den senaste gjordes 2024-05-02 21:04:01.

smyg har fått 1296 sökningar. Den senaste gjordes 2024-05-02 21:03:40.

romantiken har fått 1602 sökningar. Den senaste gjordes 2024-05-02 21:03:35.

aktivt kol har fått 1504 sökningar. Den senaste gjordes 2024-05-02 21:00:50.

fetischism har fått 1393 sökningar. Den senaste gjordes 2024-05-02 20:57:11.

sven bergvall har fått 1231 sökningar. Den senaste gjordes 2024-05-02 20:55:01.

bryna har fått 1467 sökningar. Den senaste gjordes 2024-05-02 20:53:55.

skåne har fått 1303 sökningar. Den senaste gjordes 2024-05-02 20:53:09.

juice har fått 1846 sökningar. Den senaste gjordes 2024-05-02 20:52:52.

UE har fått 1467 sökningar. Den senaste gjordes 2024-05-02 20:49:19.

pul har fått 1553 sökningar. Den senaste gjordes 2024-05-02 20:45:44.

Designed by: template world
Learning4sharing.nu
All Rights Reserved. 0.07 SEK

Logga in

Välkommen att redigera och skriva nya artiklar!

Ingent Konto?

Skaffa konto för att redigera och skapa nya ariklar Nytt Konto.

Ny Användare

Välkommen att redigera och skriva nya artiklar! Skapa konto nedan.


Ett verifieringsmail kommer att skickas till din E-post som du måste öppna och verifiera din E-post med

Lägg till artikel

Du är inte inloggad.

Logga In eller Skapa konto.