|
|||||||||||||||||||||||||||
Jacob Sparre Andersen wrote:
> We are up to version 1.4.29 of the Danish
> http://da.speling.org/filer/
Inom Projekt Runeberg har jag nu börjat scanna 1. utgåvan av C. F.
Bricka, "Dansk biografisk Lexikon", de första 10 banden (1887-1896),
http://runeberg.org/dbl/
När jag kör den resulterande 15 MB stora textmassan (OCR-text från
6377 sidor) genom Aspell och den danska ordlistan 1.4.23, så får jag
ut 263.972 ord som är felstavade, varav 42.395 är unika. Detta kan
bero på gammalstavning (paa, Kjøbenhavn), OCR-fel (Kjobenhavn),
förkortningar (Forf.) eller på ord som helt enkelt borde finnas med i
Aspell-listan (egennamn). Själv kan jag inte danska tillräckligt bra
för att veta vad som är vad.
Finns det något intresse av att skapa en "gammeldansk" ordlista?
Jag kan skapa ett tar-arkiv av textfilerna.
Projekt Runeberg behöver hjälp av någon eller några danskspråkiga
personer, bland annat med att skriva ett förord till den här digitala
utgåvan. Se även http://da.wikipedia.org/wiki/Projekt_Runeberg
Här är de vanligaste rapporterade orden från DBL:
21785 paa (å)
7468 Aar (Substantiv med stor Bokstav)
5639 saa
4989 ogsaa
4535 Kjøbenhavn (kj)
2303 maatte
1988 saaledes
1962 Aaret
1655 forskjellige
1639 Avg. (månaden augusti)
1626 faa
1619 Sept.
1537 Febr.
1396 II (romerska tal)
1288 Chr.
1260 ere (pluralböjning av verb)
1173 baade
1115 Kjøbenhavns
1061 III
1029 maa
962 IV
879 gjøre (gj)
876 Kjøbenhavn.
844 derpaa
840 bleve
837 St.
821 Forf.
799 naar
780 strax
761 Grev
747 Erslew (författare av referenslitteratur)
739 faaet
715 saadan
701 Maade
695 Kapitajn
--
Lars Aronsson (sslug@sslug)
Projekt Runeberg - ditt digitala bibliotek - http://runeberg.org/
|
||||||||||||||
|
||||||||||||||