(以(yǐ)下為臨時文案,您可自由進行更換)自然語言處理是計算機(jī)科學領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實(shí)現人與計算機之間用自然(rán)語言進行有效(xiào)通信的各種理論和方法(fǎ)。自(zì)然語言處理是一門融語言學、計(jì)算機科學、數學於一(yī)體的科學。因此,這一領域的研究將涉及自然(rán)語言,即人們日常使用的語言,所以它與語言學(xué)的研究有著密切的聯係(xì),但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通信(xìn)的計算機(jī)係統,特別是其中的軟件係統。因而它是計算機科學的一部分。
自然語(yǔ)言處理(NLP)是計算機科學,人工智能,語言學(xué)關注計算機和人類(自然)語言(yán)之(zhī)間的相互作用的領(lǐng)域。
語言(yán)是人(rén)類區別(bié)其他動物的本質特性。在所有生物中,隻有人類才具有語言能力。人(rén)類的多種智能都與語言有著密切的關係。人類的邏輯(jí)思維以(yǐ)語言為形式,人類的絕大部分(fèn)知識也是(shì)以語言文字的形式記載和流傳下來的。因而,它也(yě)是人工智能的一個重要,甚至核心部分。
用自然語言與計算機進行(háng)通信,這是人們長期以來所追(zhuī)求(qiú)的。因為它既有明顯的實際意義,同(tóng)時也有重要的理論意義:人們可以用自己較習慣(guàn)的語(yǔ)言來(lái)使用計算機,而無需再花大(dà)量的時間和(hé)精力去學習不很自(zì)然和習慣的各種計(jì)算機語言;人們也可通過它進(jìn)一步了解人類的語言能力和智能的機製。
實現(xiàn)人機間自然語言通信意(yì)味著要使計算機既(jì)能理解自然語言文本的意義,也能以自然語言文本來(lái)表達給定的意圖、思想等。前者(zhě)稱為自然語言理解,後者稱為自然語言生成。因此,自然(rán)語言處理大(dà)體包括了自然語言理(lǐ)解和自然語言生成兩(liǎng)個部分。曆史上(shàng)對自然語(yǔ)言理解研究得較多,而對自然語言生成研究得較少。但這種狀況已有所改變。
無論實現自然語言理解,還是自(zì)然語言生(shēng)成,都遠不如人(rén)們原來想象的那麽簡單,而是**困難的。從現有的理論和(hé)技術現狀看,通用的、高質(zhì)量的自然語言處理係統,仍然是較長期的努力目標,但是針對一定應用,具有相當自然語言處理能力的實用係統已經出現,有些已商品化,甚至開始產業化。典型的例子有:多語種數據庫和專家係統的自然語(yǔ)言接口、各種機器(qì)翻譯係統、全文(wén)信息檢(jiǎn)索係統(tǒng)、自動文摘係統等。
自然語言處理,即實現人(rén)機間自(zì)然語言通信,或(huò)實現自然語言理解和自然語言生成(chéng)是**困難的。造成困難的(de)根(gēn)本原(yuán)因是自然語言文(wén)本和(hé)對話(huà)的各個層次上廣泛存在的各種各樣的歧義性或多(duō)義性(ambiguity)。
一個中文文本從形(xíng)式上看是由漢字(zì)(包括標點符(fú)號等)組成的一個字符串。由字(zì)可組成詞,由詞可組(zǔ)成詞組,由詞組可組成句子,進而由一些句子組成段、節(jiē)、章、篇。無論在(zài)上述的各種層次:字(符)、詞、詞組、句(jù)子、段,……還是在下一層次向上一層(céng)次轉變中都存在著歧義和(hé)多義現(xiàn)象,即形(xíng)式上一樣的一段字符串,在不同(tóng)的場景(jǐng)或不同(tóng)的語境下,可以理(lǐ)解(jiě)成不同的詞串、詞組串等,並有不同的意義。一般情況下(xià),它們中的大多數(shù)都是可以根據相應的語境(jìng)和場景的規定而得到解決的。也就是說,從總體(tǐ)上說,並不存在歧義。這也就是我們平時並不感到自然語言歧義,和(hé)能(néng)用自然(rán)語言(yán)進(jìn)行正(zhèng)確交流的原因。但(dàn)是一方麵,我們也看(kàn)到,為了消解歧義,是需要極其大量的知識和進行推(tuī)理的。如何將(jiāng)這些(xiē)知識較完整地加以(yǐ)收集和整理出來;又如何(hé)找到合適(shì)的形式,將它們存入計算(suàn)機係(xì)統中去;以及如何有效地利用它們來消除歧義,都是工作量極大且(qiě)**困難的工作。這不是(shì)少數人短時期內可以完成的,還有待長期的、係統的工作。
以上說的是,一(yī)個中文文本或一(yī)個漢字(含標點符號等)串可能有多個含義。它是自然語言理解(jiě)中(zhōng)的主要(yào)困難和障礙。反過來,一個相同或相近的意義(yì)同樣可以用多個中文文本或多個漢字串來表示。
因此,自然語言的形式(字(zì)符串)與其意義之間是一種多對多(duō)的關係。其(qí)實這也正是自然語言的魅力所在(zài)。但從計算機處理的角度看,我(wǒ)們必須消除歧義,而且有人認為它正是(shì)自然語(yǔ)言理(lǐ)解中的中心問題,即要把帶有潛在歧義(yì)的自然語言輸入轉換成某(mǒu)種無歧義的計算機內部表示。
歧義(yì)現象的廣泛存(cún)在使得消除它們需要大量的知識和推理,這就給基於(yú)語言學的方(fāng)法、基於知識的方法帶來了巨大(dà)的困難,因而以這(zhè)些方法(fǎ)為主流的自然語言處(chù)理研(yán)究幾十年來一方麵在理論和方法方麵取(qǔ)得了很多成(chéng)就(jiù),但在(zài)能(néng)處理(lǐ)大(dà)規模真實文(wén)本的係統(tǒng)研製方麵(miàn),成績並不顯著。研製的一些係(xì)統大多數是小規模的、研究性的演示係統。
目前存在的問題有兩個方麵:一方麵,迄今為止的(de)語法都限於分析一個孤立的句子,上下(xià)文關(guān)係和談話環境對本句的約束(shù)和影響還缺乏(fá)係統的研究,因此分析歧義、詞語省略、代(dài)詞所指、同一句(jù)話在不同場合或由(yóu)不同的人說出來所具有的不(bú)同含(hán)義等問題,尚無明確(què)規律可循,需要加強(qiáng)語用學(xué)的研究才能逐步解決。另一方(fāng)麵,人理解一(yī)個句子不是單憑語法,還運用了大量的有關知識,包括生活知識和專門知識,這些知識無法全(quán)部貯存在計算機裏。因此一(yī)個書麵理解係統隻能建立在(zài)有限(xiàn)的詞匯、句型和特定的(de)主題範圍內;計算機的(de)貯存量和運轉速(sù)度大大提高之(zhī)後,才有可能(néng)適當擴大範圍(wéi).
以(yǐ)上存在的問題成為自然語言理解在機器翻譯應用中的主要難題,這也就是(shì)當今機器翻譯(yì)係(xì)統的譯文質量離理想目標仍(réng)相差甚遠的原因之一;而譯文質量是機譯係統成敗的關鍵。中國數學家、語言學家周海中教授曾在**論文《機器翻譯五十年》中指出:要提高機譯(yì)的質量,首先要解決的是語言本身問題而不是程序設計問題;單(dān)靠若幹程序來做機(jī)譯係統,肯定是無法提高機譯質量的;另外在人類尚未明了大腦是如(rú)何進行語言的模糊識別(bié)和邏輯判斷的情況下,機譯要想達到“信(xìn)、達、雅”的程度是不可能的。