Hoppa till huvudinnehåll

Vad innehåller korpusstatistik-filerna?

För de flesta av våra korpusar finns nedladdningsbar statistik. Under en övergångsperiod finns statistiken i två olika format, men med tiden kommer det nya formatet att ersätta det gamla. Båda formaten innehåller frekvenssorterade listor över ordformer men kolumnernas innehåll skiljer sig.

Vissa av filerna är mycket stora, och det kan därför vara bäst att spara ner dem på sin dator i stället för att visa dem direkt i webbläsaren. Detta gör du enklast genom att högerklicka på önskad länk och sen välja att spara länken.

Kolumner i det gamla formatet

Filerna saknar kolumnrubriker:

  1. ordform (alla olika ordformer som finns i texten/korpusen)
  2. ordklass (förteckning över taggarna)
  3. lemgram (om sådant hittas)
  4. +/- som indikerar om en sammansättningsanalys har kunnat göras
  5. faktisk frekvens (totalt antal förekomster)
  6. relativ frekvens (antal förekomster per en miljon ord)

Kolumner i det nya formatet

Följande kolumner finns i alla filer i det nya formatet, men det kan även finnas andra kolumner i vissa filer:

  1. ordform (alla olika ordformer som finns i texten/korpusen)
  2. ordklass (förteckning över taggarna)
  3. grundform (om sådan hittas)
  4. SALDO-betydelse (om sådan hittas)
  5. lemgram (om sådant hittas)
  6. sammansättningsanalys (för ord som saknar en SALDO-betydelse och där en sammansättningsanalys har kunnat göras)
  7. faktisk frekvens (totalt antal förekomster)

Licensen för statistikfilerna är CC BY 4.0.