統計語言學
統計語言學 (statistical linguistics)
數理語言學的一個分支,應用統計數學的方法來研究語言現象的語言學科。統計語言學的研究領域目前主要包括以下幾個方面:
①統計語言單位的出現頻率,如對詞彙和音位、語素出現的頻率進行統計研究。
②統計作傢的用詞頻率、詞長分佈和句長分佈,以瞭解作傢運用語言的風格;用這種方法還可判定匿名文章的作者。
③計算語言存在的絶對年代以及親屬語言從共同原始語分化出來的年代,這方面的研究叫做語言年代學,又稱為詞源統計分析法。此外,還可對親屬語言的語法、語音體係進行統計、比較。
④采用信息論方法研究語言的熵和羨餘度。語言的熵就是在交際過程中語言符號出現的不定度。不定度的大小與語言的熵的高低一致。當語言的接收者接收到語言符號之後,不定度被消除,熵等於零,因而在交際過程中,語言接收者所得到的信息量恰恰等於被消除的熵。語言的羨餘度是指語言中超過傳遞最少需要量的信息量的比例,在一般情況下,人們為了保證對方能夠理解,總是提供比實際需要多得多的信息量,因此,不論在書面語還是口語中,語言都有羨餘度。
⑤探討語言的一般統計規律。例如,在按頻率遞減順序排列的頻率詞典中,詞的序號越大,詞的頻率越小,序號與頻率之間的關係可以用數學公式描述為一定的統計規律,這個統計規律叫做齊夫定律,因其研究者之一、美國語文學家g.k.齊夫而得名。 ⑥運用隨機過程論來研究語言,把語言看成彼此聯繫的字母序列,前一個字母决定後一個字母的出現,於是形成一條字母鏈,叫做馬爾科夫鏈,因其最早的研究者俄國數學家a.a.馬爾科夫而得名。
⑦研究文章中兩個詞之間、兩個語法範疇之間、兩個語義類之間或兩個句法類型之間的間距,以揭示文章在句法或語義上的特徵。
⑧研究語言的詞彙與文章長度的關係,以揭示文章中詞彙的豐富程度和差異程度。
統計語言學在數理語言學中有比較悠久的歷史。古印度語法學家在研究《吠陀》時,就進行過單詞和音節數目的統計。1851年,英國數學家a.德·摩爾根 (1806~1871) 曾把詞長作為文章風格的一個特徵加以統計研究。蘇格蘭學者l.坎貝爾於1867年、德國學者w.迪丁貝爾格於1881年都曾采用統計方法確定柏拉圖著作的寫作時期。1887年,美國學者t.c.門登霍爾對英國文學作品、特別是莎士比亞的作品進行過統計分析。1913年,馬爾科夫研究了俄語中字母序列的生成問題,提出了馬爾科夫隨機過程論。1935年,齊夫發表了齊夫定律。1944年,英國數學家g.u.尤勒在《文學詞語的統計分析》一書中廣泛使用概率和統計方法來研究語言。1950年,美國學者m.斯瓦德士進行了語言年代學的研究。1951年,美國數學家c.申農采用信息論的方法研究書面英語中的熵和羨餘度; 美國學者 v.英格韋對句法現象進行了間距分析。1954年,法國學者p.基羅根據文章中詞的頻率分佈提出了詞彙豐富度的概念。1956年,英國學者g.赫爾丹出版了《語言是選擇和機遇》一書,係統總結了統計語言學的研究成果。近30年來,在語言統計中日益廣泛地使用計算機,逐漸改變了傳統的手工查頻、統計的辦法,提高了統計的效率和精度。
統計語言學大致可分為語音統計學、詞彙統計學、語法統計學和語義統計學,分別研究語言的語音、詞彙、語法和語義的統計特徵。從描寫的角度出發,詞彙統計學又可以分為年代統計學、風格統計學和分類統計學3 個分支,分別根據時代的變化、作者寫作風格的不同和語言的類屬或起源對詞彙特徵進行統計分析。
統計語言學的許多研究成果,對於通信技術、語言教學和自然語言的信息處理都很有價值。
統計語言學是數理語言學的一個分支,是運用統計學的方法研究各種語言現象的學科。
18世紀時,開始用統計學來解釋語言的消失與保存。1880年代,青年語法學派中的一些學者也使用過統計方法來研究語言。自發明計算機以後,統計語言學得到了迅速發展。
統計語言學主要研究:
語言單位的出現頻率
作傢的用詞頻率、詞長分佈和句長分佈,以確定作傢的寫作風格
計算語言存在的絶對年代以及親屬語言從共同原始語分化出來的年代 |