Hoppa till huvudinnehåll

Alla nyheter

Språkbanken Texts terminsworkshop

- Kan artificiell intelligens ändra lagstiftningen? Det var en av forskningsfrågorna som presenterades vid Språkbanken Texts interna workshop den 8/6.

Sedan i höstas anordnar Språkbanken en workshop i slutet av varje termin där alla medarbetare får tillfälle att visa varandra vad de har arbetat med under det gångna halvåret. Måndagens workshop var innehållsrik och bjöd på 20 presentationer. Till exempel fick vi höra Peter berätta om arbetet med Twitterdata, Anne och Martin gav oss en förhandsvisning av nyheter i Sparvs Pipeline, David beskrev ett experiment han utövat med hjälp av crowdsourcing och Johan demonstrerade den Västsvenska litteraturkartan.

Här hittar du alla ämnena som presenterades. Är du intresserad av att veta mer, välkommen att höra av dig till Språkbanken! 

På vår personalsida hittar du kontaktuppgifterna.
 

Snart premiär för ny svensk diakronisk korpus

Svenskan har länge saknat en diakronisk korpus, det vill säga en digitaliserad samling texter som sträcker sig över lång tid. Men nu arbetar Eva Pettersson, datorlingvist vid Uppsala universitet, med att ta fram en textsamling på flera miljarder ord som kommer röra sig från fornsvenska till nutid.
Eva Pettersson, datorlingvist vid Uppsala universitet.
Fotograf: Mikael Wallerstedt

Korpusar är stora textsamlingar eller transkriptioner av taldata. De är sammanställda för att ge en representativ bild av exempelvis ett visst språk, och med hjälp av en korpus kan en forskare använda autentiska exempel för att undersöka språket.

– En diakronisk korpus innehåller texter över en lång tidsperiod. Då kan till exempel språkhistoriker få bättre överblick över hur språkutvecklingen sett ut för svenskan ur ett historiskt perspektiv och de kan även lättare jämföra med andra språk. Vi tror att det är värdefullt att ta fram den här korpusen just för att möjliggöra forskning i stor skala på svenskans utveckling, berättar Eva Pettersson.

Diakroniska korpusar finns redan för många andra språk men är en lucka just när det gäller svenskan. Idag får den som vill titta på språkutvecklingen på ett övergripande plan eller inom en viss genre som till exempel prosa, leta på många olika ställen.
– Det är krångligt och tidskrävande och texterna finns ofta i många olika format. Vi vill göra det betydligt enklare.

Projektet startade på initiativ av Lars Borin, föreståndare för Nationella språkbanken och professor i språkvetenskaplig databehandling, och är även en del av Swe-Clarin, vars syfte är att göra digitala språkresurser tillgängliga för forskare inom alla discipliner, särskilt inom humaniora och samhällsvetenskap. 

– Målgruppen är som sagt i första hand språkhistoriker, men även andra forskare som exempelvis litteraturvetare eller historiker kan ha stor användning av detta. Textsamlingen kommer även vara till nytta för datorlingvister och språkteknologer som behöver träna olika program på en stor mängd data, säger Eva Pettersson.

I ett första steg tittade hon på hur diakroniska korpusar ser ut för andra språk för att ha något att utgå ifrån. Efter det gick hon vidare och undersökte vad det finns för genrer inom svenskan som var lämpliga att använda.
– Jag intervjuade också språkhistoriker för att få en bild av vad som är viktigt och vilken typ av texter som skulle finnas med i korpusen. I första hand har vi valt att ha med genrer som finns representerade för hela tidsperioden, till exempel religion, prosa, domprotokoll, lagar och viss vetenskaplig text.

Andra frågor som hon ställts inför handlar också om format, hur korpusen ska se ut och hur man får in texter.
– Kriterierna är att alla texterna ska kunna delas vidare fritt utan förbehåll, det gör det hela lite krångligare och kan vara problematiskt med nutida text, berättar Eva Pettersson och tillägger att korpusen är tänkt att kunna växa med tiden.

Planen är att släppa en första fritt tillgänglig version av korpusen innan 2020 är slut. Textsamlingen kommer att finnas tillgänglig på en webbsida där man ska kunna ladda ner texter exempelvis efter årtal och genre. 

– I ett första steg kommer visst material att vara taggat, det vill säga märkt med lingvistisk information som ordklass, morfologi och betydelse. Senare kommer vi att släppa nya versioner och slutmålet är att hela korpusen ska vara taggad. På sikt kommer man också att kunna komma åt korpusen genom Språkbanken Texts sökverktyg Korp, säger hon.

Den svenska trädbanken Eukalyptus har släppts i en ny version

Den svenska trädbanken Eukalyptus består av en samling av moderna svenska texter från fem olika genrer om sammanlagt nära 100 000 ord. Eukalyptus har nu släppts i en ny version.

Texterna har märkts upp med ordklasser, morfologi och betydelse, samt syntaktisk analys. I den nya versionen har vi gått igenom och rättat uppmärkningen av ordklasser och morfologi. Ytterligare en ny version planeras inom en snar framtid med uppdaterad syntaktiska uppmärkning.

Den nya versionen av Eukalyptus-korpusen finns här.

Läs mer i Språkbanksbloggen.

Referensdata för utvärdering av OCR

Två nya resurser för utvärdering av OCR finns nu tillgängliga för nedladdning hos Språkbanken Text.

Två nya resurser för utvärdering av OCR finns nu tillgängliga för nedladdning:
(1) Svensk fraktur 1626–1816 innehåller ett urval av digitaliserade versioner av äldre frakturtryck. Materialet digitaliserades av Göteborgs universitetsbibliotek (UB) och består av 44 titlar. En lista över de tillgängliga titlarna med motsvarande libris-id och publiceringslänk finns här.
(2) Svenska tidningar 1818–1870 innehåller 106 sidor från 53 slumpmässigt valda svenska tidningar som digitaliserades av Kungliga biblioteket (KB). Tidningslistan finns här.

Resurserna kan laddas ner från resurssidan.

Sommarjobbare ska hjälpa demensforskningen

Dimitrios Kokkinakis, forskare vid Språkbanken, institutionen för svenska språket har tilldelats ett stipendium på 80 000 SEK från Demensförbundet. Stipendiet ska användas till att segmentera och transkribera flera hundra ljudinspelningar. Resultatet kommer att vara underlag för att studera hur man i språket kan upptäcka tidiga tecken på demens. Nu ska ett antal sommarjobbare rekryteras för att genomföra transkriptionerna.

https://spraakbanken.gu.se/om/personal/dimitrios

 

Språkbanken bidrar till nya sätt att tillgängliggöra KB:s samlingar

Tillsammans med Kungliga bibliotekets (KB) nystartade datalabb kommer Språkbanken Text att bidra till att tillgängliggöra delar av KB:s samlingar. – Samarbetet innebär mycket goda nyheter för digital humaniora och samhällsforskning i Sverige, säger Love Börjesson, verksamhetsledare för KB-labb.
Love Börjesson, verksamhetsledare KB-labb. Fotograf: Jann Lipka

– Våra målsättningar går hand i hand. Vi på Språkbanken Text behöver forskningsdata samtidigt som KB vill hitta sätt att göra material tillgängligt. KB har en guldgruva med material som de inte kan dela med sig av på grund av upphovsrättsliga skäl, säger Markus Forsberg, föreståndare för Språkbanken Text. 

KB-labb är Kungliga bibliotekets (KB) nystartade labb för datadriven forskning inom humaniora och samhällsvetenskap. Verksamhetsledare Love Börjesson säger att samarbetet med Språkbanken Text skapar fantastiska möjligheter att lyfta och tillgängliggöra KB:s samlingar på helt nya sätt.
- Nu kan vi implementera Språkbankens svenska NLP-tunnel Sparv, vilket ger forskare som använder KB-labb möjlighet att analysera och strukturera data på ett sätt som tidigare var omöjligt. Genom det här samarbetet får vi också en mycket högre utväxling på vår egen infrastruktur än vad som annars hade varit fallet. 

Anne Schumacher, forskningsingenjör på Språkbanken Text, var nyligen på plats på KB-labb för att installera Sparv, Språkbankens annoteringsverktyg, på deras maskiner.
– KB har texter som vi är intresserade av men som de inte kan ge till oss. Nu kan KB-labb analysera texterna med hjälp av Sparv och sen extrahera alla ord, till exempel med en viss egenskap, och ge listor till oss. På så sätt får vi ut data från samlingarna utan att göra intrång i upphovsrätten, säger hon och tillägger att Språkbanken Text i sin tur kan analysera datan och även fritt dela med sig av listorna, så att vem som helst kan använda dem.

Språkbankens Markus Forsberg säger att samarbetet hittills gått otroligt smidigt.
– Vi har precis kommit igång, men det här känns som ett samarbete som vi kan bygga vidare på, där vi kan fokusera på analysen och de kan fokusera på att göra material tillgängliga, säger han.

Love Börjesson håller med och menar att samarbetet mellan KB-labb och Språkbanken Text innebär mycket goda nyheter för digital humaniora och samhällsforskning i Sverige. Han tillägger att det dessutom skapar ett intressant intellektuellt sammanhang där de olika verksamheterna berikar varandra på flera sätt utöver det specifika verktyg de delar och utvecklar.