Hoppa till huvudinnehåll

Vad är meningsmängder?

För många av Språkbankens korpusar finns det nedladdningsbara meningsmängder. Meningsmängderna är samlingar av meningar från respektive korpus, med automatisk annotering av t. ex. ordklasser och syntaktisk struktur. I vissa korpusar har meningarna kastats om av upphovsrättsliga skäl. Det betyder att meningarna har en slumpmässig ordning för att originaltexterna inte ska gå att återskapa.

Ungefär såhär ser Sparvs "standard"-XML-format för meningsmängderna ut:

<text>
  <paragraph>
    <sentence>
      <token _tail="\s">text</token>
    </sentence>
  </paragraph>
</text>

Observera:

  • Alla korpusar har inte styckesinformation (<paragraph> finns alltså inte alltid).
  • Äldre korpusar (sådana som är annoterade med Sparv-versioner före version 4.0) har <w>-taggar istället för <token> och innehåller aldrig några _tail-attribut.
  • _tail-attributet inuti <token> innehåller information om mellanrum (blanksteg "\s", tabbar "\t" eller radbrytningar "\n") som följer tokenet i källmaterialet.
  • Utöver taggarna och attributen i exemplet ovan kan det förekomma fler taggar och attribut i XML:en beroende på hur indatan såg ut och vilka annotationer som har lagts till av Sparv.

 

Se även Hur kan jag få tillgång till icke-meningsomkastade versioner av Språkbankens korpusar? och Hur får man tillgång till skyddade korpusar som till exempel ESPC?.