Hoppa till huvudinnehåll

annotering

Flerordingar: ord som består av flera delar

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): 'huset', 'superstor', 'bloggade'. De flesta skulle nog säga att 'idag' är ett ord, men hur är det om vi skriver det (också rättstavat) 'i dag' då? 'Mont Blanc-tunneln'? 'Röda blodkroppar'? I det här blogginlägget tänkte jag prata om ord som innehåller mellanrum och flerordsuttryck, och hur man kan analysera dem i en korpus.

Om ordklasser för svenska språket

Ordklassindelning används i många språkteknologiska verktyg därför att det är ett sätt att skilja mellan olika användningar av ett ord. Genom ordklasserna kan man enklare söka efter liknande ord och uttryck i stora textmängder, eller skapa en ny text med liknande form. Att automatiskt dela in orden i texter i ordklasser är därmed en av de grundläggande metoderna inom artificiell intelligens, för att få datorn att förstå mänskligt språk.

Prenumerera på annotering