(以下為臨(lín)時文案,您可自由進行更換(huàn))自然語言處理是計算(suàn)機科學領域與(yǔ)人工智能領域中的一個重(chóng)要方向。它研(yán)究能實現人與計算(suàn)機之間(jiān)用自然語言進行(háng)有效通信的各種理論和(hé)方法(fǎ)。自然語言處理(lǐ)是一門融語言學、計算機科學、數學於一(yī)體的科學。因此,這一領域(yù)的研究將涉及自然語言,即人們日常使用的語言,所(suǒ)以它與語言學的(de)研究有著密切的聯係,但又有重要的(de)區別。自然語(yǔ)言處(chù)理並不是一般地研究自然語言,而在於研製能有效地實(shí)現自然語言通(tōng)信的計算機係統,特別是其中的軟件係統。因而(ér)它是計算機科學的一部分。
自然(rán)語言處理(NLP)是計算機科學,人工智能,語言學關注計(jì)算機和人類(自(zì)然)語言(yán)之間的相互作用的領域。
語言(yán)是人類區別其他動物的本質特性。在所有生物中,隻有人類才具有語言能力。人類的多種智能(néng)都與語言有著(zhe)密切的關係。人類(lèi)的邏輯思維以語言為形式,人類的(de)絕大部分知識也是以語言文字的形式記載和流(liú)傳下來的(de)。因而,它也是人工智能的一個(gè)重要,甚至核心部分。
用自然語言與計算機進行通信,這是人們長期以(yǐ)來(lái)所追求的。因為它既(jì)有明顯的實際意義,同時(shí)也有重要的理論意義:人們可以用自己較習慣的(de)語言來使用計算機,而無需再花(huā)大(dà)量的(de)時間和精力去(qù)學習(xí)不很自然和習慣的各種計算(suàn)機語言;人們也可通過它進一步了解人類的語言能力(lì)和智能的機製。
實現人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。前者稱為(wéi)自然語言理(lǐ)解,後者稱為自然語言生成。因此,自然語言處理大體包(bāo)括了自(zì)然(rán)語言理解和自然語言生成兩個部分(fèn)。曆史(shǐ)上(shàng)對自然語言理解研究(jiū)得較多,而對(duì)自然語言生成研究得較少。但這種狀(zhuàng)況已有所改變(biàn)。
無論實現(xiàn)自然語言(yán)理解,還是自然語(yǔ)言生(shēng)成,都遠不如人們原來想象的那麽簡單(dān),而是(shì)**困難的。從現有的(de)理論(lùn)和技術現狀(zhuàng)看(kàn),通用的(de)、高質量的自然語言處理係統,仍然是較長期的努力目標,但是針對一定應用,具有相(xiàng)當自然語言處理能力的實用係統已經出現,有些已商品化,甚至開始產業(yè)化。典型的例子有:多語種(zhǒng)數據庫和專家(jiā)係統的自然語言接口、各種機器翻譯係統(tǒng)、全(quán)文信息檢索(suǒ)係統、自動文摘係統等。
自然語(yǔ)言處理,即實現人機間自然語言(yán)通信,或實現自然語言理(lǐ)解和自然語言生成是**困難的。造成困難的根本原因是自然語言文本和對話(huà)的各個層次上廣泛存在的各(gè)種各樣的歧義性或(huò)多義性(ambiguity)。
一個(gè)中文文本從形式上看是(shì)由漢字(包括標點符(fú)號等)組成的一個字符串。由字(zì)可組成詞,由詞可組(zǔ)成詞組(zǔ),由詞組可組成句子,進而由一些句子組成段、節、章、篇。無論在上述的各種層次:字(符)、詞、詞(cí)組、句子、段,……還是在下一層次向上一層次轉變中都存(cún)在著歧義和多義現(xiàn)象,即(jí)形式上一樣的一段字符串,在不同的場景或不同的語境下,可以理解(jiě)成不同的詞串、詞(cí)組串等,並有不同的意義。一般情況下,它們中的大多數都是可以根據相應的語境和場景的規定而得到(dào)解(jiě)決的。也就是說,從總體上說,並(bìng)不存在歧義。這也就是我們平時並不感到自然語言歧義,和能用自然語言進(jìn)行正確交流的原因。但是一方麵,我(wǒ)們也看到,為(wéi)了消解歧義,是需要極其大量的(de)知識和進(jìn)行推(tuī)理的。如何將這些知識較完整地加以收(shōu)集和整理出(chū)來;又如何找到合適的形式,將它們存入(rù)計算機(jī)係統中去;以及如何有效地利用它們來消除歧義,都是(shì)工作量極大且(qiě)**困難的工作。這不是少數人短時期(qī)內可以完成的,還(hái)有待長期的、係統的工作。
以上說的是,一個中文文(wén)本或(huò)一個漢字(含標(biāo)點符號(hào)等)串可能有多個含義。它是自然語言(yán)理(lǐ)解中的主要困難和障礙。反(fǎn)過(guò)來,一個相同或相近(jìn)的意義同樣可以(yǐ)用多個中文文(wén)本或多個漢字(zì)串來表示。
因此,自然(rán)語言的(de)形式(shì)(字符串)與其意義之間是一種多對(duì)多的關係(xì)。其實(shí)這也正是自然(rán)語言的魅力所在。但(dàn)從計算機處理的角度看,我們必須消除歧義,而且有(yǒu)人認為它正是自然語言理解中的中心問題,即要把帶有潛在歧義的自(zì)然語言輸入轉換成(chéng)某種無歧義的計算機內部表示。
歧義現象的廣(guǎng)泛存在(zài)使得消除它們需要大量的知識和推理,這就給基於語言學的方法、基於知識的方法帶來了巨大的(de)困難(nán),因而以這些方法為主流的自然語(yǔ)言(yán)處理研究幾十(shí)年來一方麵在理論和方(fāng)法方(fāng)麵取得了很多成就(jiù),但在能處理大規模真實文本的係統研製方麵,成績並不(bú)顯著。研製的一些(xiē)係統大多數是小(xiǎo)規模的、研究性的演示係統。
目前存在(zài)的問題有兩個方(fāng)麵:一方麵,迄(qì)今為止的語法都限於分析一個(gè)孤立的句子,上下文關係和談話環境對本句的約束和影響還缺乏係統的研(yán)究,因此分(fèn)析歧(qí)義、詞語省略(luè)、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規律可循,需要加強語用學的研究才能逐步解決。另一方麵,人理解一個句子不是單(dān)憑語法,還運用了大量的有關知識,包括(kuò)生活(huó)知識(shí)和(hé)專門知識,這些知識無法全部貯存在計(jì)算機裏。因此一個書麵理解係統隻能建立在有限的詞匯、句型和特定的主題範圍內;計算機的貯存量和運轉速度大大提高之後,才有可能適當擴大範圍(wéi).
以上存在(zài)的問題成為自然語言理解(jiě)在機器翻譯應用中的主要(yào)難題,這(zhè)也就是當今機器翻譯係統的譯文質量離理想目標仍相差甚遠(yuǎn)的原因之一;而譯文質量是機譯係統成敗的關鍵。中國數學家、語言學家周海中教授曾在**論文《機(jī)器翻譯五十年》中(zhōng)指出:要提高機譯的質量,首先要解決的是語言本身問題(tí)而不是程序設計問題;單靠若幹程序(xù)來做(zuò)機譯係(xì)統(tǒng),肯定是(shì)無法提高(gāo)機(jī)譯質量的;另外在人類尚未明(míng)了大腦(nǎo)是如何進行語言的模(mó)糊識別和邏輯判斷的情(qíng)況下,機譯要想達到“信、達、雅”的程度(dù)是不可能的。