omorfi

Open morphology for Finnish


Project maintained by flammie Hosted on GitHub Pages — Theme by mattgraham

Statistics

These are semi-automatically generated statistics from omorfi database. The statistics are based on the actual data in the database tables and the versions of whole analysed corpora and tools on this date.

Generation time was 2024-01-21T17+01:00:


It was created by omorfi configure 0.9.9, which was
generated by GNU Autoconf 2.71.  Invocation command line was

  $ ./configure --enable-big-tests

This is a released version, and can be downloaded from github.

Lexical database

The numbers are counted from the database, unique lexical items. Depending on your definitions there may be ±1 % difference, e.g. with homonyms, defective and doubled paradigms, etc. There are total of 555465 lexemes.

Per universal POS

The universal parts-of-speech are described in Universal dependencies UPOS documentation and its Finnish UPOS definitions.

Frequency UPOS
351031 PROPN
156375 NOUN
24828 ADJ
13145 VERB
7817 ADV
916 NUM
568 INTJ
376 ADP
85 PRON
80 X
74 SYM
73 SCONJ
54 PUNCT
17 CCONJ
13 AUX
10 CCONJ, VERB
2 DET
555465 TOTAL

Per sources of origin

Sources of origin are:

Frequency origin
289915 nimistö
254098 finer
143748 enwikt
94445 kotus
54344 fiwikt
43164 joukahainen
42855 dvvfi
31349 finnwordnet
15120 omorfi
7703 ftb3

…or split across lexemes:

Frequency origin(s)
211729 finer, nimistö
63759 nimistö
49623 enwikt, kotus
35745 enwikt
21873 finnwordnet
20982 finer
20115 dvvfi
11622 enwikt, fiwikt, joukahainen, kotus
10831 enwikt, fiwikt, kotus
10531 omorfi
8324 fiwikt
8031 enwikt, joukahainen, kotus
7316 joukahainen
7266 ftb3
6795 kotus
6092 unk
5554 enwikt, finnwordnet
4597 enwikt, fiwikt
3943 dvvfi, finer
3615 dvvfi, finer, nimistö
3081 dvvfi, finer, fiwikt, nimistö
2845 enwikt, omorfi
2251 enwikt, joukahainen
2191 fiwikt, kotus
2012 fiwikt, joukahainen, kotus
1783 dvvfi, enwikt, finer, nimistö
1685 dvvfi, fiwikt
1624 enwikt, finnwordnet, fiwikt
1590 joukahainen, kotus
1317 dvvfi, enwikt, finer, fiwikt, nimistö
1181 dvvfi, enwikt, finer, joukahainen, nimistö
796 finer, joukahainen, nimistö
789 dvvfi, omorfi
777 finnwordnet, joukahainen
770 dvvfi, nimistö
759 finnwordnet, fiwikt
747 dvvfi, finer, joukahainen
746 enwikt, joukahainen, kotus, fiwikt
663 enwikt, fiwikt, joukahainen
630 enwikt, kotus, fiwikt
591 dvvfi, enwikt, finer, joukahainen
590 dvvfi, finer, joukahainen, nimistö
552 finer, joukahainen
491 enwikt, finnwordnet, joukahainen
460 dvvfi, enwikt, finer, fiwikt, joukahainen, nimistö
416 enwikt, finer
371 fiwikt, joukahainen
351 enwikt, fiwikt, omorfi
328 dvvfi, finer, fiwikt
325 dvvfi, enwikt, finer
310 dvvfi, joukahainen
290 ftb3, joukahainen
199 enwikt, finer, fiwikt
196 finer, fiwikt
177 dvvfi, enwikt, finer, fiwikt, joukahainen
164 enwikt, finnwordnet, fiwikt, joukahainen
159 dvvfi, enwikt, finer, fiwikt
154 dvvfi, enwikt
153 dvvfi, enwikt, fiwikt
148 enwikt, joukahainen, fiwikt
147 kotus, fiwikt
137 enwikt, omorfi, fiwikt
126 enwikt, finer, nimistö
123 dvvfi, fiwikt, nimistö
121 enwikt, finer, joukahainen
118 finer, fiwikt, nimistö
107 dvvfi, finer, fiwikt, joukahainen, nimistö
104 fiwikt, omorfi
94 joukahainen, kotus, fiwikt
82 enwikt, ftb3
76 joukahainen, omorfi
70 joukahainen, fiwikt
66 finer, joukahainen, fiwikt
65 omorfi++
61 finnwordnet, fiwikt, joukahainen
59 joukahainen, nimistö
59 enwikt, finer, joukahainen, nimistö
55 dvvfi, fiwikt, joukahainen
54 dvvfi, finer, fiwikt, joukahainen
48 omorfi, nimistö
47 dvvfi, enwikt, fiwikt, joukahainen
40 enwikt, ftb3, joukahainen
39 dvvfi, joukahainen, nimistö
34 finer, fiwikt, joukahainen
32 enwikt, finnwordnet, joukahainen, fiwikt
31 dvvfi, enwikt, joukahainen
27 finer, kotus
27 enwikt, finer, kotus
27 dvvfi, enwikt, fiwikt, nimistö
26 omorfi, fiwikt
22 finer, fiwikt, kotus
21 enwikt, finer, fiwikt, joukahainen
20 enwikt, finer, fiwikt, kotus
19 enwikt, joukahainen, omorfi
15 enwikt, finer, joukahainen, fiwikt
14 dvvfi, enwikt, finer, joukahainen, fiwikt, nimistö
13 finnwordnet, joukahainen, fiwikt
13 dvvfi, omorfi, nimistö
12 dvvfi, enwikt, joukahainen, nimistö
10 finer, fiwikt, joukahainen, nimistö
10 enwikt, fiwikt, ftb3, joukahainen
10 dvvfi, finer, joukahainen, fiwikt, nimistö
10 dvvfi, enwikt, finer, joukahainen, fiwikt
9 finer, joukahainen, fiwikt, nimistö
9 enwikt, fiwikt, joukahainen, omorfi
7 enwikt, finer, joukahainen, fiwikt, nimistö
7 enwikt, finer, fiwikt, joukahainen, nimistö
6 fiwikt, nimistö
6 fiwikt, joukahainen, omorfi
6 finer, omorfi++
6 dvvfi, finer, joukahainen, fiwikt
5 finer, joukahainen, omorfi++
5 enwikt, finer, fiwikt, nimistö
5 dvvfi, enwikt, fiwikt, joukahainen, nimistö
4 joukahainen, omorfi++
4 fiwikt, ftb3, joukahainen
4 fiwikt, ftb3
4 finer, omorfi
4 finer, joukahainen, kotus
4 enwikt, nimistö
4 enwikt, joukahainen, omorfi, fiwikt
4 enwikt, fiwikt, ftb3
4 dvvfi, joukahainen, omorfi
4 dvvfi, joukahainen, fiwikt
4 dvvfi, enwikt, nimistö
3 finer, fiwikt, joukahainen, kotus
3 enwikt, finer, joukahainen, kotus
3 dvvfi, fiwikt, joukahainen, nimistö
3 dvvfi, enwikt, omorfi
2 omori
2 ftb3, joukahainen, fiwikt
2 fiwikt, omorfi++
2 fiwikt, joukahainen, omorfi++
2 enwikt, finer, fiwikt, joukahainen, kotus
2 dvvfi, omorfi, fiwikt
2 dvvfi, fiwikt, joukahainen, omorfi
1 unihu, nimistö
1 omorfo
1 omorf
1 omofi
1 kotus, omorfi++
1 kotus, omorfi
1 joukahainen, omorfi, fiwikt
1 joukahainen, kotus, omorfi++
1 ftb3, fiwikt
1 finnwordnet, omorfi
1 finer, joukahainen, omorfi, nimistö
1 finer, joukahainen, omorfi++, nimistö
1 finer, fiwikt, joukahainen, omorfi++, nimistö
1 enwikt, omorfi, nimistö
1 enwikt, omorfi++
1 enwikt, joukahainen, kotus, omorfi
1 enwikt, fiwikt, joukahainen, omorfi++
1 enwikt, finer, kotus, fiwikt
1 enwikt, finer, joukahainen, omorfi++, nimistö
1 enwikt, finer, fiwikt, joukahainen, omorfi++, nimistö
1 dvvfi, joukahainen, fiwikt, nimistö
1 dvvfi, fiwikt, omorfi
1 dvvfi, finer, joukahainen, omorfi, nimistö
1 dvvfi, finer, fiwikt, joukahainen, omorfi++, nimistö
1 dvvfi, enwikt, joukahainen, fiwikt
1 dvvfi, enwikt, fiwikt, omorfi
1 dvvfi, enwikt, finer, joukahainen, omorfi++, nimistö

Paradigms

Paradigms are the classes you need to separate the lexemes into for inflection and some of the lexical features, such as UPOS. You can see the Paradigms generated documentation for some automatically gathered details about each paradigm.

Paradigms per UPOS
555 PROPN
540 NOUN
231 VERB
140 ADJ
52 PRON
26 NUM
14 SYM
14 ADV
12 ADP
11 AUX
5 X
4 PUNCT
2 INTJ
2 DET
1 SCONJ
1 CCONJ

Naïve coverages

Naïve coverage is number of tokens (types) that receive one or more non-heuristic readings divided by total number of tokens, i.e. how many words are part of the lexical database.

For list of common tokens not covered by the lexicon, see the most frequent missing tokens per corpus.

Combined coverages

Feature Coverage # Coverage % All
Tokens 1603708932 99.6100 % 1610031971
Types 100904 97.3100 % 103702

The coverages were measured with full lexicon, if you use the smaller lexicon coverages are slightly worse.

Smaller lexicon coverage

Feature Coverage # Coverage % All
Tokens 1496082014 92.9300 % 1610031971
Types 80548 77.6800 % 103702

europarl-v7.fi-en.fi

Feature Coverage # Coverage % All
Tokens 37346540 99.4000 % 37572899
Types 701936 89.0000 % 788709

fi_ftb-ud

Feature Coverage # Coverage % All
Tokens 141929 98.8400 % 143599
Types 41795 96.6400 % 43252

finer

Feature Coverage # Coverage % All
Tokens 502449 96.4100 % 521209
Types 61633 90.8400 % 67851

fi_tdt-ud

Feature Coverage # Coverage % All
Tokens 178402 98.2600 % 181571
Types 50608 95.1800 % 53174

fiwiki-latest-pages-articles

Feature Coverage # Coverage % All
Tokens 89256406 94.6500 % 94309549
Types 2976726 60.5300 % 4918107

ftb1

Feature Coverage # Coverage % All
Tokens 160031 98.6000 % 162312
Types 44800 95.8700 % 46734

ftb3.1

Feature Coverage # Coverage % All
Tokens 74519564 97.5800 % 76369439
Types 1260104 76.3900 % 1649644

jrc-fi

Feature Coverage # Coverage % All
Tokens 44800745 95.7700 % 46783240
Types 927776 64.1000 % 1447515

OpenSubtitles2018.fi

Feature Coverage # Coverage % All
Tokens 282873650 98.6300 % 286805178
Types 2588815 69.4200 % 3729496

tatoeba-fi

Feature Coverage # Coverage % All
Tokens 921258 99.4700 % 926170
Types 81865 95.5300 % 85697

unimorph-fin

Feature Coverage # Coverage % All
Tokens 1974583 98.9200 % 1996324
Types 1768017 98.8500 % 1788650

Most frequent missing tokens per corpus

These are the most common tokens still left unrecognised by the lexicon. Most of them should be foreign languages, codes and rubbish. These are used from time to time improve the lexical coverage.

europarl-v7.fi-en.fi

Frequency Word-form
263 Lehnen
258 T?et?enian
240 Prestigen
229 Milosevi
210 Miloseviin
209 (KOM(2001)
208 Salafranca
204 Oomen-Ruijtenin
203 T?ekin
202 Lamfalussyn
196 Böschin
193 Sterckxin
193 Dalai
188 Lamy
186 Junilistan
185 YKP:n
184 UCLAFin
179 Randzio-Plathin
176 Mundus
176 Haugin
173 Vihreät/Euroopan
171 Lamassouren
169 Miguélez
168 Helms-Burtonin
168 Florenzin
165 Ribeiro
165 Coelhon
164 vuoden�
164 PO
162 Öcalanin
162 (KOM(2000)
162 EFD-ryhmän
161 Velzenin
159 Oostlanderin
157 Lannoyen
157 Garriga
155 Pirkerin
154 Savaryn
153 (KOM(1999)
152 Favan
151 (KOM(2002)
151 Goldstonen
150 Titleyn
150 NUTS
149 Lullingin
149 Buitenwegin
146 Kambodžan
145 Graça
142 Ludfordin
141 Oomen-Ruijten
139 Petersbergin
139 Baringdorfin
138 Dührkop
137 Fontainen
136 Ellesin
135 YMJ:
133 Sinn
133 Sellafieldin
132 Colom
132 Berèsin
130 Morillonin
129 Solbes
128 Roth-Behrendt
127 Isler
127 Fabra
125 Roth-Behrendtin
125 Gaddafin
125 Act
124 Howittin
122 Eurlingsin
121 Rocardin
121 Marset
121 Ferberin
121 Aznarin
119 Reimer
119 Lamyn
119 Gebhardtin
118 Tindemansin
118 Schreyer
118 hoc
118 Cappaton
118 Almunia
117 Bloklandin
117 Bertens
116 Whiteheadin
116 Hernández
115 Nassauerin
115 Galeote
114 Lanckerin
114 Broek
112 Kyi
111 Plooij-van
111 Pervenche
111 Oostlander
111 Alleanza
110 Titley
110 Monnet’n
110 Lehne
108 Randzio-Plath
108 Mont

fi_ftb-ud

Frequency Word-form
15 joll
7 sillee
6 ol
5 tääl
5 pitäs
4 semmone
4 rupee
4 rauhotu
4 puol
4 johonki
4 esimerkiks
4 Emmä
3 yhtää
3 vähäm
3 viikkoo
3 upeeta
3 tiä
3 tietsä
3 siihe
3 semmost
3 sellaist
3 sd
3 pitäskö
3 Oottekste
3 onk
3 ollenkaa
3 näis
3 näi
3 nytte
3 ninku
3 mis
3 keng-
3 jotaki
3 jonnekkii
3 ens
3 Akiro
3 31.8.
3 30_000
3 3_000
3 10_000
2 Yoeune
2 yksie
2 yhtäkkii
2 yhes
2 yheksän
2 vähäks
2 vuuen
2 vuoks
2 täälä
2 täst
2 tämmöst
2 tällasen
2 tuol
2 Tuleek
2 Troia
2 tommost
2 tiäks
2 tilloo
2 teil
2 TBK
2 Soiliki
2 siälä
2 siält
2 sielt
2 siell
2 seuraavaks
2 semssi
2 semmoseks
2 seitsemä
2 satayheksänkymmentä
2 saadas
2 Ride
2 pääs
2 puhutaal
2 Pretty
2 pittää
2 piikkainporaa
2 Ootsä
2 ook
2 Onk
2 ollum
2 näkönen
2 Näil
2 nimittäi
2 niim
2 Nakayama
2 muute
2 mum
2 mk/kg
2 minuuttii
2 Mikhailov
2 mihi
2 meritalaiset
2 mentäs
2 mennssä
2 Mencius
2 meill
2 Meil
2 meil
2 lähössä

finer

Frequency Word-form
323
323 <BODY>
240
126 Lizard
106 Snowdenin
103 Snowden
82 Glass
77 Oculus
76 Cnet
76 App
66 Angry
62 Glassin
60 Eich
60 Birds
54 Blackberryn
52 Squad
51 Verge
46 Blackberry
45 Silk
45 S5
44 Squadin
43 SpaceX:n
40 Yamamoto
40 ei-IFRS
40 Dotcom
39 SpaceX
39 S6
38 Zoo
38 Yotaphone
38 Cnetin
36 Digitoday
35 Play
34 Neowin
34 Model
34 Digitodaylle
33 Interview
32 Softpedia
32 Gmail
31 Trapattoni
30 Xperia
30 Snapdragon
30 MacBook
30 FierceWireless
30 Dotcomin
28 Xiaomin
28 Xiaomi
28 Cortanan
27 Treholt
26 Raspberry
26 loka–joulukuussa
26 Flappy
26 Chromecast
26 10_000
25 Payn
25 Cortana
24 TechCrunch
24 Syrian
24 Steiber
24 Rift
24 Marriottin
24 Anthemin
24 9to5Mac
24 50_000
23 Vergen
23 Player
22 update
22 Server
22 Gear
21 S5:n
21 Nadella
21 Gmailin
21 100_000
20 Yota
20 Wear
20 PCMag
20 Nest
20 Engadget
20 Army
20 5S
19 Zbořil
19 Z5
19 Register
19 Lollipop
18 TechCrunchin
18 Synchronossin
18 Riftin
18 RadioShackin
18 N1
18 Lollipopin
18 iOS:n
18 Hacker
18 Google+:n
18 Digitodayn
18 Cablen
18 30_000
18 200_000
17 Update
17 mAh
17 Hickersberger
17 Devices

fi_tdt-ud

Frequency Word-form
18 5(n)
7 türki
7 Trifolium
7 Ratcliffe
7 Binderup
7 3.Rf3
6 Tšerepanov
6 Tienshinhan
6 Nikomedes
6 N63
6 Lupinus
6 Lolium
6 Laodiken
6 Judge
6 e5
6 E21
6 2.f4
5 Wars
5 Tracon
5 tajuu
5 Rodrigues
5 Qazibe
5 Origenes
5 Moolenaar
5 Molvania
5 Medicago
5 Laodike
5 Know
5 Iglesiaksen
5 Finnjet
5 Filen
5 death
5 Charger
5 Brassica
5 :
4 Åsbrink
4 TTW
4 Trunkenpolz
4 Thriller
4 Thrill
4 sativa
4 Routila
4 Risperidon
4 pratensis
4 Luminance
4 Libuše
4 LHC:n
4 Large
4 kakskytvaille
4 Immortal
4 IHN
4 Hoskins
4 Hodgkinson
4 Head
4 Hadron
4 Grisay
4 EY:
4 exf4
4 EKP/1998/15
4 DeMille
4 Costazza
4 Collection
4 Chávezin
4 Bithynian
4 Aktan-Collan
4 1.e4
3 Zawinul
3 Vakhtang
3 ugh
3 Trotzigin
3 Tremonti
3 sith-lordi
3 Sidious
3 sd
3 Rösslerin
3 Rumex
3 Realsoft
3 Radioheadin
3 Pong
3 Plotinoksen
3 pic
3 Philokrates
3 Origeneen
3 Obornen
3 Muammar
3 Mocumbi
3 Libušen
3 Kuypers
3 Kieseritzkyn
3 Khosroes
3 –katse
3 häne
3 Hypatian
3 Hypatialle
3 Hypatiaa
3 Gugi
3 guaramidihaara
3 Globate
3 Gaddafin
3 Gaddafi

fiwiki-latest-pages-articles

Frequency Word-form
147644
6960 xxxx
4736 20px
4091
3103 end
3089 function
3043 Serie
2528 sign
1792
1778 Dark
1741 This
1662 Series
1637 death
1564 vuosis
1556 vuosie
1511 Museum
1499 JR
1442 We
1391 this
1387 1855−1856
1321 Kuva:Finland
1293 Championship
1279 Death
1245 vapen.svg
1240
1223 Dead
1220 –Höyhens
1217 Last
1208 –Pxos
1159 Copa
1079 not
1060 Val
1044 Fameen
1013 Dimotikí
1010 Slam
970 1.jpg
966 –Zache
946 Transformers:
935 Legend
919 Segunda
909 2.jpg
881 Light
858 –Abc10
852 Château
850 Way
840 maalaiskunta(
833 Boys
824 Blood
822 Award
809 Ενότητα
809 Enótita
805 Jääkä
796 Two
768 Book
767 Statistiska
761 01.jpg
755 What
755 was
743 Not
727 Heart
718 (Δημοτική
704 Gear
693 École
686 Greatest
682 we
681 Fire
680 Girl
668 Special
666 Sweet
664 syn.
660 arms.svg
659 Dinamo
653 (eng.
651 maalit2
650 maalit1
649 joukkue2
649 joukkue1
648 coats
646 Evil
645 Kuva:No
636 Näsijärven–Ruoveden
629 “Luokka:Poistoäänestykset
625 Ball
621 Public
611 Scapa
611 Rally
604 Κοινότητα
604 Koinótita
599 Mighty
599 God
597 NCAP
595 which
594 End
593 Wars
593 Station
591 UKBot-botti.
590 Earth
588 Never
587 Please
580 States

ftb1

Frequency Word-form
17 joll
9 sillee
8 Tarja_Halonen
8 pitäs
8 ol
6 Helsingin_Sanomat
5 tääl
5 rupee
5 jotenki
4 viikkoo
4 vaanmutta
4 upeeta
4 siihe
4 semmone
4 rauhotu
4 puol
4 näis
4 näin_ollen
4 nytte
4 jotaki
4 johonki
4 Euroopan_unionin
4 esimerkiks
4 4_600
3 yhtää
3 vähäm
3 vähäks
3 tiä
3 tietsä
3 TBK
3 Tampereen_yliopistossa
3 sielt
3 semmost
3 sellaist
3 sd
3 Roman_Polanskin
3 pääs
3 Punaisen_Ristin
3 pitäskö
3 Paavo_Lipponen
3 Oottekste
3 onk
3 ollenkaa
3 näi
3 nipin_napin
3 ninku
3 New_Yorkissa
3 muute
3 mis
3 Martti_Ahtisaari
3 keng
3 Katotaas
3 jonnekkii
3 hirveesti
3 Helsingin_yliopiston
3 Helsingin_Sanomien
3 Esko_Aho
3 ens
3 Akiro
3 300_000
3 30_000
3 3_000
3 10_000
2 Yoeune
2 yksie
2 yhtäkkii
2 yhes
2 yheksän
2 vuuen
2 vuoks
2 Voi_hyvinkin
2 Voi_hyvin
2 viimeks
2 vieläkää
2 Veijo_Meri
2 varmmaam
2 Uuno_Turhapuroon
2 täälä
2 täst
2 tämmöst
2 tällasen
2 Turun_Sanomissa
2 tuol
2 Tuleekse
2 Troia
2 Tony_Blairin
2 tommost
2 tiäks
2 tilloo
2 teil
2 Soiliki
2 siälä
2 siält
2 siell
2 seuraavaks
2 semssi
2 semmoseks
2 seitsemä
2 satayheksänkymmentä
2 saadas

ftb3.1

Frequency Word-form
6051 amp
4489 p.m
3382 PIC
2805
2705 της
2517 και
2246 nr
2186 europa.eu.int
2145 pic
2094 comm
2043 un
1950 την
1941 του
1751 το
1749 dans
1665 των
1639 Fax
1582 που
1547 this
1497 Act
1463 S.A
1430 για
1416 να
1399 eG
1379 1.1.2006–
1346 η
1343 από
1305 EG
1293 με
1274 voor
1270 LOOPU
1268 not
1264 which
1250 Nr
1215 PO
1182 Société
1134 under
1130 Classification
1122 including
1104 States
1098 Kingdom
1088 Klassificering
1059 C10
1024 sgb
1018 NEWLINE
1009 secretariat
1005 Member
946 Verts
928 ec.europa.eu
925 NGL-ryhmän
924 its
915 Ministry
903 shall
902 Article
899 Extract
896 implementation
890 EXTRACT
883 aux
882 ANNEX
878 spp
875 Regulation
864 τις
858 Department
843 delle
819 between
816 og
814 est
803 net
797 σε
792 artikel
790 ότι
782 por
777 anonyme
774 mod.
772 nie
764 Brussel
757 such
757 -1
751 EMOTR:n
750 B-1049
749 BV
746 IE
739 EKT
735 public
704 measures
688 til
688 reg
676 αριθ
663 LU
663 aid
659 million
658 τα
657 je
657 Commissione
656
653 δεν
653 Postbus
653 č
652 GenmbH
649 οι

jrc-fi

Frequency Word-form
16379 EUR/100
6675 +++++
4729 *IT
3920 *FR
3893 FILE=
3866 >PIC
3573 EUR/t
3110 %amp%
2698 της
2466 //
2463 και
2422 0,—
2335 *DE
2229 (2006/C
2040 την
1989 %:a
1979 [pic]
1972 KOM(2005)
1952 un
1931 του
1925 *HU
1907 *ES
1793 dans
1755 το
1668 των
1611 *CZ
1595 this
1573 που
1507 p/st
1431 *NL
1408 για
1401 eG
1400 να
1382 *SK
1377 *PL
1352 ……….
1344 από
1333 (2005/C
1327 η
1325 S.A.
1305 KOM(2006)
1303 LOOPU>
1300 voor
1291 Act
1290 *UK
1284 με
1269 not
1263 which
1259 lopull.
1257 /*
1254 */
1208 nr.
1189 Nr.
1150 Société
1149 under
1149 KOM(2004)
1095 Classification,
1091 Kingdom
1090 lausunnon(2),
1075 %mdash%
1068 nr
1067 (EG)
1045 Member
1040 %lt%
1038 C10
994 including
988 its
986 PO
948 ehdotuksen(1),
943 *AT
932 aux
923 http://europa.eu.int/comm/secretariat_general/sgb/state_aids/
908 States
908 delle
902 Article
898 og
898 aine/ihoa
897 Extract
890 EXTRACT
883 τις
844 shall
842 ANNEX
839 between
828 Demarty
821 implementation
804 Fax:
798 K(2005)
795 Fax
793 σε
786 B-1049
779 por
779 Department
776 artikel
774 Regulation
766 est
765 nie
746 EMOTR:n
742 such
736 anonyme
730 (EUR/100

OpenSubtitles2018.fi

Frequency Word-form
3949 oIi
2793 OIen
2789 Pinmontagne
2588 S.org
2381 Original
2367 …ja
2059 ÄIä
1801 oIIa
1682 :….
1496 lsä
1460 Text
1382 lhmiset
1372 oIen
1351 llman
1312 oIisi
1297 Mitä…?
1281 oIet
1276 oIIut
1267 FBl:
1253 horge
1226 ltse
1184 juzkaaz,
1157 SubFinland.org…:
1133 OIet
1119 my
1108 Herr
1106 tääIIä
980 vieIä
968 Stevie
957 lstu
902 Führer
892 ltä.
889 Matti_,
875 Gossip
865 wraithien
853 -…ja
846 MinuIIa
827 SubLand.info
821 sinä…?
802 BTI
783 Siinäs
770 SDI
739 Broadcast
734 minuIIe
728 lsä,
725 tääIIä.
717 FBl:n
711 HaIuan
709 Foreman
704 ¡Ó
699 sinuIIe
693 0len
690 haIua
690 FBI:sta.
687 Juuseri,
686 Heil
678 lta.
658 camel,
651 lsäni
649 lsäsi
629 DickJohnson,
627 OIemme
623 J.R.
615 BarFly83,
602 ..ja
591 I’m
590 Subtitles
590 Señor
581 wraithit
577 Fat
573 amigo.
570 Mayday!
569 Führerin
566 S01
566 neohifk,
565 Mama
563 lkävä
563 BarFly83
555 A_atoli,
553 oIette
553 0nko
551 TuIe
551 Li’l
549 L.A.
544 Lhmiset
540 …mutta
540 2O
539 sinuIIa
533 Darryl
523 Val
522 ltä
520 Iiian
520 [FINNISH]
513 Pope
512 Morty.
511 Ghost
509 Shelly
504 Maddie
504 Coulson
498 Girl

tatoeba-fi

Frequency Word-form
44 Muiriel
42 Yanni
33 Ziri
25 Ooksä
20 tähdistäennustamiseen.
16 Ootsä
14 Tykkääk
13 Tom’in
13 Mennad
11 pitäsi
10 ve’en
10 tarviin
10 Haluuk
9 Yumi
8 tähdistäennustamisesta?
8 Ook
8 Muirielin
8 Mis
8 Lipschitz-jatkuva!
8 Fréchet-avaruudessa
7 Tomil
7 Skura
7 Mayuko
7 Majk!
7 koskaa
7 kattoo
6 π
6 vetrehet
6 törkeen
6 tähdistäennustamista.
6 tosissas?
6 Tom’ista.
6 Tom’ista
6 Tom’ia.
6 Skuran
6 Sagittarius
6 saatantahan,
6 kakskyt
6 Atuqtuaq
5 tähdistäennustamista
5 nään
5 kolmenkympin.
5 ”Emmä
4 Ælfred.
4 Zamenhof
4 ymmärteneen
4 väärinymmärteneen
4 tähdistäennustamisesta.
4 tähdistäennustamiseen?
4 tähdistäennustaminen
4 Tomr.
4 Tom’iin.
4 Titanic
4 tieän
4 telkkarii.
4 tarvin.
4 tarvin
4 Tarviik
4 Taroun
4 Taj
4 syvemmä.
4 ”Sommerfugl”
4 siitäki
4 Siirrää
4 sep’
4 Seinfeldistä?
4 Sauronin
4 šahadaa.
4 Quebecissä.
4 parametrisoitte
4 parametrisoit
4 noloo.
4 naimaiässä.
4 Mist
4 Minogue.
4 Marguerit
4 Manjolle
4 L’Hôpitalin
4 kakskytvuotias.
4 kakskyt.
4 kabylia,
4 juuta
4 Johanolle
4 itselläniki
4 Ichiro
4 Höm!
4 hoisi
4 että…
4 Cookie
4 cones”
4 autosa.
4 asiosta,
4 2²⁰¹³
3 Yooko
3 ymmärtynyt
3 WC:seen.
3 Voisiksä
3 vibrofoniin
3 vaikeeta.
3 uuen

unimorph-fin

Frequency Word-form
8 Merisi
4 vadat
4 upeet
4 suskeptibiliteetit
4 signifikantit
4 ohet
4 kahkot
4 csardas
4 chuukilaiset
4 chuukilainen
4 amerikanbandoggi
2 äpit
2 äikät
2 åkermaniitit
2 zoofyytit
2 zeptosekunnit
2 yröt
2 yritteet
2 Ylä-Volta
2 yläpaarteet
2 yksöistunnit
2 yarkantinjänis
2 yarkantinjänikset
2 wurtziitit
2 wolfinmarakatti
2 wolfinmarakatit
2 Weddellinmeri
2 Vähä-Syrtti
2 väestötiheykset
2 vohlivat
2 vohlitte
2 vohlimista
2 vohliminen
2 vohlimaisillaan
2 vohliakseen
2 virvit
2 virtuaalilemmikkit
2 virtuaalilemmikki
2 virpit
2 virpisi
2 virpinsä
2 virpinne
2 virpini
2 virpimme
2 virpejä
2 virpeinä
2 virpeineen
2 virpeihin
2 villieringenetit
2 Vienanmeri
2 vetot
2 veloute-kastikkeet
2 veloute-kastike
2 vehjeet
2 vastenmielisimmat
2 Valtot
2 valkoisetpaimenkoirat
2 vaihdannaisuudet
2 vadoitta
2 vadoista
2 vadoissa
2 vadoin
2 vadoilta
2 vadoille
2 vadoilla
2 vadoiksi
2 vadatta
2 vadasta
2 vadassa
2 vadan
2 vadalta
2 vadalle
2 vadalla
2 vadaksi
2 vaakaamista
2 vaakaaminen
2 vaakaamaisillaan
2 Uudet-Seelannit
2 uudenseelanninlokit
2 upeetta
2 upeesta
2 upeessa
2 upeesi
2 upeeseen
2 upeensa
2 upeenne
2 upeeni
2 upeena
2 upeen
2 upeemme
2 upeelta
2 upeelle
2 upeella
2 upeeksi
2 Uotsit
2 Uotsi
2 Uotit
2 ulut
2 ubiikit
2 töyhtöt

Automata statistics

The underlying language models are mostly represented by finite-state automata (FSAs). The figures may give some indication of the speed and size of the models in practical applications.

accept

Feature Measure
On-disk size 9,1M
states 112284
arcs 391875
final states 18057
input/output epsilons 0
input epsilons 791
output epsilons 9339

accept.lexc

Feature Measure
On-disk size 4,7M
states 103429
arcs 227150
final states 10233
input/output epsilons 0
input epsilons 8952
output epsilons 7074

analyse

Feature Measure
On-disk size 5,7M
states 110335
arcs 239323
final states 42
input/output epsilons 0
input epsilons 34362
output epsilons 26423

describe

Feature Measure
On-disk size 29M
states 529920
arcs 1220441
final states 121
input/output epsilons 0
input epsilons 156781
output epsilons 63227

generate

Feature Measure
On-disk size 28M
states 543991
arcs 1208620
final states 125
input/output epsilons 21473
input epsilons 77435
output epsilons 173075

hyphenate-rules-1

Feature Measure
On-disk size 27K
states 8
arcs 1470
final states 6
input/output epsilons 0
input epsilons 15
output epsilons 54

hyphenate-rules-2

Feature Measure
On-disk size 57K
states 19
arcs 3371
final states 13
input/output epsilons 0
input epsilons 32
output epsilons 117

hyphenate-rules-3

Feature Measure
On-disk size 90K
states 27
arcs 5473
final states 21
input/output epsilons 0
input epsilons 48
output epsilons 189

hyphenate-rules

Feature Measure
On-disk size 56K
states 19
arcs 2765
final states 11
input/output epsilons 0
input epsilons 15
output epsilons 99

lexc

Feature Measure
On-disk size 5,0M
states 119501
arcs 237457
final states 47
input/output epsilons 0
input epsilons 31726
output epsilons 33440