FineReader
FineReader är ett OCR-program utvecklat av ryska företaget ABBYY (http://www.abbyy.com/). Version 6 finns i en variant för Västeuropa och Nordamerika som klarar 122 språk (inklusive Esperanto och Fortran!) och en variant för Östeuropa som klarar ytterligare 50 språk.På Yahoo Groups finns en oberoende sändlista för erfarenhetsutbyte runt programmet, http://groups.yahoo.com/group/FineReader
Se även METAe-projektet, som vill få FineReader att tolka frakturstil.
För Projekt Runeberg används FineReader 6.0 för att tolka text till de digitala faksimilutgåvorna, bland annat av Nordisk familjebok. Då sparas enbart textfiler (.txt) och ingen fontinformation, eftersom den tolkade texten ska användas till korrekturläsning direkt på webben i ett system som ungefär liknar wiki.Arbetsgången är som följer:
- Boken scannas utan FineReaders medverkan som TIFF G4-filer som numreras 0001.tif, 0002.tif, o.s.v.
- Starta FineReader
- Om möjligt, öppna en befintlig sats/batch för en liknande bok. Då ärvs alla språkegenskaper från denna.
- Välj ny batch / sats för den nya boken. Placera satsen i samma filkatalog där TIFF-bilderna ligger.
- Ställ in tolkningsspråket på svenska
- Välj menyn tools view dictionaries Swedish View
- Se till att ordlistan har tillägg av de gammalstavade ord som krävs för gamla svenska texter. Om så inte är fallet, importera dessa från textfil. Var noga med att inte lägga till ord som ätt, söm, fär, holl i ordlistan, eftersom dessa förvillar tolkningsmaskinen så att den läser fel på de vanliga orden att, som, får, höll. (Fär och holl är förkortningar för färöisk och holländsk.)
- Välj öppna fil (open image), välj rätt filkatalog och markera alla inscannade TIFF-filer som hör till boken.
- Starta tolkningen med "read all". Låt den gå tills den är färdig. Det kan ta timmar, beroende på bokens omfång och datorns hastighet.
- Välj spara:
- Välj spara som fil.
- Välj att behålla fonter och fontstorlekar (Retain font and font size)
- Välj att inte spara bilder.
- Under Format settings:
- Välj TXT
- Välj teckensnittet ISO Latin-1.
- Välj att inte behålla radbrytningar
- Välj att inte lägga till i slutet av filen
- Välj att inte använda sidbrytningstecken (#12)
- Välj att lägga en tomrad mellan stycken. (nu är Format settings OK)
- Välj att spara alla sidorna (nu är Save Wizard OK)
- Välj rätt filkatalog att spara i, samma där bilderna ligger.
- Välj spara som Text Document *.txt (redan ifyllt)
- Välj att spara alla sidorna (redan ifyllt)
- Välj att namnge textfilerna som bildfilerna. De kommer då att namnges 0001.txt, 0002.txt, o.s.v.
- Tryck OK.
- Egentligen hade man velat behålla radbrytningar men sammanföra avstavade ord. Detta alternativ erbjuder dock inte FineReader 6.0, utan i stället väljer vi att inte behålla radbrytningar. I stället försöker vi återföra dem under Unix. Det betyder att radbrytningarna hamnar på godtyckliga ställen, men det hela ger ändå ett användbart och snyggt resultat. Gå till filkatalogen där textfilerna ligger och kör följande Unix-kommando:
Artikeln skriven 2009-01-16 av Learning4sharing
Inga kategorier för denna artikel än...Intresserad av fler artiklar?
O du ärans konungClara OCR
METAe
Förunderligt samt märkligt
O du saliga
Besman
Kristus är uppstånden
I Jesu avtryck är tryggt att vandra
O, att den elden redan brunne