|
|||||||||||||||||||||||||||
Quoting Lars Aronsson <sslug@sslug>: > Finns det något program som kan bryta upp "radio- och telefonteknik" i > orden "radioteknik" och "telefonteknik", så att "radio- och > motorcykel" kan få underkänt eftersom "radiocykel" är en felaktig > (eller åtminstone väldigt ovanlig) sammansättning? Det första steget, att ur "radio- och telefonteknik" härleda "radioteknik" och "telefonteknik", är inte särskilt svårt (även om det krävs ett visst mått av gissning). Det andra steget består i att avgöra om två givna ord, exempelvis "radio" och "cykel", får sättas samman. Det enklaste är om sammansättningen redan finns i ordlistan, då är svaret ett klart ja. Men annars får man försöka göra en bedömning av sannolikheten att det är en korrekt sammansättning. En vägledning är de enskilda ordens ordklasser; om det ena ordet är ett adverb, så är sammansättningen förmodligen ogiltig. Om, som i fallet med "radio" och "cykel", båda är av en rimlig ordklass, så kan sammansättningen inte förkastas på syntaktiska grunder. Man måste då gå över till semantiken. I Den Stora Svenska Ordlistan (http://217.215.213.10/) arbetar vi på två olika system att representera semantiken; "semantiska markörer" och "klassificeringar". (De ligger inte ute på nätet ännu. Huvudsyftet med den semantiska klassificeringen är för övrigt att kunna göra översättning mellan olika språk.) Genom att lägga in associationer mellan de semantiska kategorierna kan man få en viss uppfattning om rimligheten av en sammansättning. Tyvärr är detta extremt komplicerat att genomföra, och dessutom skulle "radiocykel" troligtvis få en ganska välvillig bedömning av ett sådant system. > Om vi vill uppnå detta, hur bör våra ordlistor vara konstruerade? Syntaktisk information: 1) Ta med så många *rimliga* sammansättningar som möjligt. 2) För svenska språket, lägg in sammansättningsböjningar - t.ex. används formen vecko- när substantivet "vecka" förekommer (som första ord) i sammansättningar. 3) Markera ord- och böjningsklass för alla ord. Semantisk information (extremt svårt att utnyttja): 4) Klassificera de olika semantiska enheterna (en "semantisk enhet" är en specifik *betydelse* av ett ord) i huvud- och underkategorier. OK? -- Göran
|
||||||||||||||
|
||||||||||||||