Start Logga In Skriv Artikel Om Oss
Vad söker du?
Allt om 'FineReader'

FineReader

FineReader är ett OCR-program utvecklat av ryska företaget ABBYY (http://www.abbyy.com/). Version 6 finns i en variant för Västeuropa och Nordamerika som klarar 122 språk (inklusive Esperanto och Fortran!) och en variant för Östeuropa som klarar ytterligare 50 språk.

På Yahoo Groups finns en oberoende sändlista för erfarenhetsutbyte runt programmet, http://groups.yahoo.com/group/FineReader

Se även METAe-projektet, som vill få FineReader att tolka frakturstil.

För Projekt Runeberg används FineReader 6.0 för att tolka text till de digitala faksimilutgåvorna, bland annat av Nordisk familjebok. Då sparas enbart textfiler (.txt) och ingen fontinformation, eftersom den tolkade texten ska användas till korrekturläsning direkt på webben i ett system som ungefär liknar wiki.Arbetsgången är som följer:

  • Boken scannas utan FineReaders medverkan som TIFF G4-filer som numreras 0001.tif, 0002.tif, o.s.v.
  • Starta FineReader
  • Om möjligt, öppna en befintlig sats/batch för en liknande bok. Då ärvs alla språkegenskaper från denna.
  • Välj ny batch / sats för den nya boken. Placera satsen i samma filkatalog där TIFF-bilderna ligger.
  • Ställ in tolkningsspråket på svenska
  • Välj menyn tools view dictionaries Swedish View
  • Se till att ordlistan har tillägg av de gammalstavade ord som krävs för gamla svenska texter. Om så inte är fallet, importera dessa från textfil. Var noga med att inte lägga till ord som ätt, söm, fär, holl i ordlistan, eftersom dessa förvillar tolkningsmaskinen så att den läser fel på de vanliga orden att, som, får, höll. (Fär och holl är förkortningar för färöisk och holländsk.)
  • Välj öppna fil (open image), välj rätt filkatalog och markera alla inscannade TIFF-filer som hör till boken.
  • Starta tolkningen med "read all". Låt den gå tills den är färdig. Det kan ta timmar, beroende på bokens omfång och datorns hastighet.
  • Välj spara:
    • Välj spara som fil.
    • Välj att behålla fonter och fontstorlekar (Retain font and font size)
    • Välj att inte spara bilder.
    • Under Format settings:
      • Välj TXT
      • Välj teckensnittet ISO Latin-1.
      • Välj att inte behålla radbrytningar
      • Välj att inte lägga till i slutet av filen
      • Välj att inte använda sidbrytningstecken (#12)
      • Välj att lägga en tomrad mellan stycken. (nu är Format settings OK)
    • Välj att spara alla sidorna (nu är Save Wizard OK)
    • Välj rätt filkatalog att spara i, samma där bilderna ligger.
    • Välj spara som Text Document *.txt (redan ifyllt)
    • Välj att spara alla sidorna (redan ifyllt)
    • Välj att namnge textfilerna som bildfilerna. De kommer då att namnges 0001.txt, 0002.txt, o.s.v.
    • Tryck OK.
  • Egentligen hade man velat behålla radbrytningar men sammanföra avstavade ord. Detta alternativ erbjuder dock inte FineReader 6.0, utan i stället väljer vi att inte behålla radbrytningar. I stället försöker vi återföra dem under Unix. Det betyder att radbrytningarna hamnar på godtyckliga ställen, men det hela ger ändå ett användbart och snyggt resultat. Gå till filkatalogen där textfilerna ligger och kör följande Unix-kommando:
for f in *.txt ; do fmt -55 -s <$f | sed s/$/^M/;s/^M^M/^M/ > foo && mv foo $f ; done

Redigera?

Artikeln skriven 2009-01-16 av Learning4sharing

Inga kategorier för denna artikel än...

Vi behhöver hjälp att kategorisera våra artiklar. Kan du skriva ett nyckelord för denna artikel? Du kan skriva upp till 3 olika nyckelord för denna artikel, vi uppskattar din hjälp!

Skriv nyckelord som du tycker beskriver denna artikel på ett bra sätt. Du kan ange 3 olika nyckelord för denna artikel, max 20 tecken per nyckelord.

  1. Lägg till fler
    Skriv in svaret på frågan: 10+8

Intresserad av fler artiklar?

O du ärans konung
Clara OCR
METAe
Förunderligt samt märkligt
O du saliga
Besman
Kristus är uppstånden
I Jesu avtryck är tryggt att vandra
O, att den elden redan brunne

Senaste sökningarna

lutherska kyrkan har fått 1817 sökningar. Den senaste gjordes 2024-04-19 20:44:10.

peter engman har fått 1329 sökningar. Den senaste gjordes 2024-04-19 20:42:45.

Kvävets har fått 1060 sökningar. Den senaste gjordes 2024-04-19 20:40:31.

smygvinkel har fått 1327 sökningar. Den senaste gjordes 2024-04-19 20:38:12.

konstgenre har fått 1435 sökningar. Den senaste gjordes 2024-04-19 20:34:12.

vindbrygga har fått 1594 sökningar. Den senaste gjordes 2024-04-19 20:34:08.

kalle anka har fått 1460 sökningar. Den senaste gjordes 2024-04-19 20:33:51.

Ove Fundin har fått 1787 sökningar. Den senaste gjordes 2024-04-19 20:33:21.

John Norrman har fått 1177 sökningar. Den senaste gjordes 2024-04-19 20:31:12.

amerikanska inbördeskriget har fått 1050 sökningar. Den senaste gjordes 2024-04-19 20:26:39.

php har fått 1400 sökningar. Den senaste gjordes 2024-04-19 20:26:24.

ärg har fått 1222 sökningar. Den senaste gjordes 2024-04-19 20:26:04.

Designed by: template world
Learning4sharing.nu
All Rights Reserved. 0.06 SEK

Logga in

Välkommen att redigera och skriva nya artiklar!

Ingent Konto?

Skaffa konto för att redigera och skapa nya ariklar Nytt Konto.

Ny Användare

Välkommen att redigera och skriva nya artiklar! Skapa konto nedan.


Ett verifieringsmail kommer att skickas till din E-post som du måste öppna och verifiera din E-post med

Lägg till artikel

Du är inte inloggad.

Logga In eller Skapa konto.