Towards Computational Lexical Semantic Change Detection

I takt med att vår värld och vår livsstil förändras, förändras även vårt språk. Vi lär oss nya ord, skaffar nya betydelser på existerande ord eller förändrar betydelser så att de passar in för att beskriva vår värld och vår tid. Vi glömmer fort och när vi tittar tillbaka, tex i gamla tidningsmaterial så är det inte alltid lätt att förstå vad som menats. Vem kommer tex ihåg yuppienallen eller vad ordet guzz betyder?

Generellt sett kan vi dela upp språkliga förändringar i två kategorier, den första rör ord vars betydelser ändras över tid medan den andra rör ord som ersätter varandra för samma betydelse. Ordet rock är ett exempel på ett ord som fått en tillagd betydelse, utöver att vara ett ytterplagg är det även en musikstil och faller därför i den första kategorin. I den andra kategorin faller en betydelse som 'slug'. Tidigare har ordet fin använts för denna betydelse, men ersatts av just slug eller listig. I denna senare kategori faller även namnförändringar, tex personer, städer och länder som byter namn.

När det gäller informationssökning i gammalt material, tex tidningar eller böcker, så orsakar ordbyten problem för att finna relevant material. Detta gäller oavsett om den som söker är en person, eller ett datorprogram. Anta att vi vill hitta material om första världskriget från perioden då kriget pågick: vid den tiden kallades kriget inte för första världskriget och en sökning med denna sträng skulle inte ge oss alla relevanta dokument.

När vi väl har hittat relevant material måste vi kunna tolka innehållet korrekt och där ställer betydelseändringar till det för oss. Han var en grym person. Hur detta skall tolkas beror naturligtvis på när meningen skrevs. Att automatiskt finna dessa ord vars betydelser har ändrats över tid, samt att veta hur förändringarna skett är av högsta vikt för att hjälpa människor och datorprogram som behöver tolka äldre (och inte alltid så gamla) texter.

Vi kommer att bygga verktyg att studera vårt språk och dess förändringar i större skala. När får ett ord en ny betydelse och hur länge är betydelsen aktiv? Hur leder en förändring i ett ord till vidare förändringar i andra, besläktade ord? Problemet är av högsta vikt: allt mer historiskt material blir öppet och tillgängligt. Det är även intressant i sociala medier där språket ändras fort. Det lockar forskare från alla domäner, framförallt digital humaniora, att forska i historiskt material och leta svar på ett automatiskt och storskaligt vis. Dessa forskare ska inte behöva vara experter på historisk lingvistik för att kunna få tillgång till denna information. Allt ifrån attityden till retorik genom historien, till abstraktion av marknaden och olika politiska partiers användning av ord kan studeras och gynnas av att hantera språkliga förändringar automatiskt.

Problemen med att finna dessa förändringar är många och stora. Ordböcker och andra resurser kan användas till viss grad, men finns sällan i digitalt format, täcker inte alla epoker eller domäner och är tänkta som referenser. För att modellera den faktiska användningen av språket bör vi istället använda oss av automatiska metoder och börja med att finna betydelsen av ord ur en text. Detta mycket svåra problem kallas för betydelseinduktion. Vi kommer att studera ordens betydelser genom dess grannar enligt devisen "You shall know a word by the company it keeps" (Firth, J. R. 1957:11).

När vi väl har funnit vad orden betyder i varje tidsperiod så jämför vi betydelser över tid för att finna förändringar (alternativt jämför samtidigt som vi modellerar ordbetydelser). Tidigare försök som gjorts har fokuserat på engelska och oftast delar av eller olika aspekter av problemet och ännu saknas t.ex. både automatiska utvärderingsmetoder och data att utvärdera på. Mycket fokus har legat på att hitta olika typer av förändringar utan att mäta eller filtrera brus. Nya, effektiva metoder använder distributionell semantik för att projicerar orden till vektorer och analyserar förändringar i dessa och kan då svara på att men inte vad som ändrats. Vi kommer att använda oss av en kombination av distributionell semantik och betydelseinduktion för kunna svara både på vad som ändrats och när. Vi kommer att använda de mycket stora samlingar av svensk text på Språkbanken, i ett världsunikt samarbete mellan semantiker och språkteknologer som med sina respektive expertiser har mycket goda förutsättningar att finna nya, automatiska metoder samt att i större skala svara på existerande hypoteser och deras generalisering till andra datamängder och tidsepoker.

Våra arbetspaket inkluderar

Vi har organiserat 1st International Workshop on Computational Approaches to Historical Language Change i anslutning till ACL2019 med 65 deltagare! Vi är också med och organiserar en SemEval2020 utmaning för Unsupervised Lexical Semantic Change Detection.

Mer information om projektet finns på https://languagechange.org/.

Publikationer

2019

Nina Tahmasebi, Lars Borin, Adam Jatowt, Yang Xu (2019): Proceedings of the 1st International Workshop on Computational Approaches to Historical Language Change, August 2, 2019, Florence, Italy
Haim Dubossarsky, Simon Hengchen, Nina Tahmasebi, Dominik Schlechtweg (2019): Time-Out: Temporal Referencing for Robust Modeling of Lexical Semantic Change, in Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, July 28 - August 2, 2019 / Anna Korhonen, David Traum, Lluís Màrquez (Editors)

2017

Nina Tahmasebi, Thomas Risse (2017): Finding Individual Word Sense Changes and their Delay in Appearance, in Proceedings of Recent Advances in Natural Language Processing 2017. Varna, Bulgaria 2–8 September, 2017 / edited by Galia Angelova, Kalina Bontcheva, Ruslan Mitkov, Ivelina Nikolova, Irina Temnikova

Towards Computational Lexical Semantic Change Detection

Publikationer

2019

2017

Projektlängd

Projektmedlemmar

Finansiering

Projekttyp

Project page

Paraplyprojekt