(以下(xià)為(wéi)臨(lín)時文案,您可自由進行更(gèng)換)自然語言處理是計算機科學(xué)領域與人工智能領域中的一(yī)個(gè)重要方(fāng)向。它研究能實(shí)現人與計算(suàn)機(jī)之間用自(zì)然語言進行(háng)有效通信的各種理論和方法。自然語言處理是一(yī)門融語言學、計算機(jī)科(kē)學、數學於一體的科學。因此,這(zhè)一領域的研究將涉及自然語言,即人們日常使用的語言(yán),所以它與語言學的研究有著密(mì)切的聯係,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而(ér)在於研製能有效地(dì)實現自然語言通(tōng)信的計算機係統,特別是其中(zhōng)的軟件係統。因而它是計算機科學的一部分。
自(zì)然語(yǔ)言處理(NLP)是計算機科學,人工(gōng)智能,語言(yán)學(xué)關注計算機和人類(自(zì)然)語言之間的相互(hù)作用的領域。
語言是人類區別其他動物的本質特性。在所有生物中,隻有人類才具有語言能力。人類的多種(zhǒng)智能都與語言有著密切的關係。人類的邏輯思維以語言為形式,人類(lèi)的絕大部(bù)分知識也是以語言文字的形式記載和流傳(chuán)下來的。因而,它也是人工智能的一個重要(yào),甚至核心部分。
用自然語言與計算機進行通信,這是人們長(zhǎng)期以來所追求的。因為(wéi)它既有(yǒu)明(míng)顯的實際意義(yì),同時也有重要的理論意義:人們(men)可以用自己較習慣的語言(yán)來(lái)使用計算機,而無需再(zài)花大量的時間和精力(lì)去學習不很自然和習慣的各(gè)種計(jì)算機語言;人們也可通過它進一步了解人類的語言能力和智能的機製。
實現人機間(jiān)自然語言通信意味著要使計算機既能理解(jiě)自(zì)然語言文本的意(yì)義,也能以自然語言文本來表達(dá)給定的意(yì)圖、思想等。前者稱(chēng)為自然語言(yán)理解,後者稱為(wéi)自然(rán)語言生(shēng)成。因此,自然語言處理大體包括了自然語言理解和自然語言生成兩個部分。曆史上對自然語(yǔ)言理解研究得較多,而對自(zì)然(rán)語言生成研究得較少。但這種(zhǒng)狀況已有(yǒu)所改變。
無論實現自(zì)然語言理(lǐ)解,還是自然語言生(shēng)成,都(dōu)遠(yuǎn)不如人們原來想象的那麽簡單,而是**困難的。從現有的理論和技術現狀看,通用的、高質量的自然語言處理係統,仍然是較(jiào)長期的努力目標,但是針對一定應用,具(jù)有相當自然語言處理能力的實用係統已經出現,有些已商品化,甚至開始產業化。典型(xíng)的例子有(yǒu):多語種數據庫(kù)和專家係(xì)統的自然語言接口、各種機器翻譯係統、全文信息檢索係統、自動文摘係統等。
自然語言處理(lǐ),即實現人機間自然語(yǔ)言通信,或實現自然語言理解和自然語言生成是**困難的。造成困難的根本原因是自然語言文(wén)本和對話的各個層次上廣泛存在的(de)各種各樣的歧義性或多義(yì)性(ambiguity)。
一個中文文本從形式上看是由漢字(包括標點符號等)組成的一個字符串。由(yóu)字可組成詞,由詞可組成詞組,由詞組可組成句子,進而由一些句子組成段、節、章、篇(piān)。無論在上述的各種層次:字(zì)(符)、詞、詞組、句子、段,……還(hái)是在下一層次向上一層次轉變中都存在著歧義和多義現象(xiàng),即形式上一樣的(de)一段字符串,在不同的場景或不同的語境下(xià),可以理解成不同的詞(cí)串、詞組串等,並有不同的意義。一般情況(kuàng)下,它們中的大多數都(dōu)是可以根據相應的語境和場景的(de)規定(dìng)而得到解決的。也就是說,從總體上說,並不存在(zài)歧義。這也就是我們平時並(bìng)不感到(dào)自然語言(yán)歧義(yì),和能用自然語言進行(háng)正確交流的原因(yīn)。但是一方麵,我(wǒ)們也(yě)看到,為了消解歧義,是需要極其大量的知識和進行推理的。如何將這些知識(shí)較完整地加以收集和整理出(chū)來;又如何找到合適的形式,將它們存入計算機係統中去;以及如何(hé)有效地利用它們來消除歧義,都是工作量極大且**困難的工作。這不是少數人短時期(qī)內可以完(wán)成的,還有待長期的、係統的工作。
以(yǐ)上說的是,一個中文文本或一個(gè)漢字(含標點(diǎn)符號等)串可能有多個含(hán)義。它(tā)是自然語言理解(jiě)中的主要困難和障礙。反過來,一個相同或相近的意義同樣(yàng)可以(yǐ)用多(duō)個中文文本或多個漢字串來表示。
因此,自然語言的形式(字符串)與其意義之間是一種(zhǒng)多(duō)對(duì)多的關係。其實(shí)這也(yě)正是自然語言的魅(mèi)力所在。但從計算機處(chù)理的角度看,我們必須消除歧義,而且有人認為它正是自(zì)然語言理解中的中心問題,即要把帶有潛(qián)在歧義的自然語言輸入轉換成某種無歧義(yì)的計算(suàn)機內部表示。
歧義現象的廣泛存在使得消除它(tā)們需要大量的知識和推理,這就給基於語言學的方法、基於知識的方法帶來了巨大的困難,因(yīn)而以這些方法為主流的(de)自然語言處理(lǐ)研究幾十年來一方麵在理論和方法方麵取得了很多成就,但在能處理大規模真實文本的係統研製方麵,成績並不顯著(zhe)。研製的一些係統大多數是小規模的、研究性的演示係統。
目前存在(zài)的問題有兩個(gè)方麵:一方麵,迄今為止的語法都限於分析一個孤(gū)立的句子,上(shàng)下文關係和談話環境對本句的(de)約束和影響還缺乏(fá)係統的研究,因此分析(xī)歧(qí)義、詞(cí)語(yǔ)省略、代詞所指、同(tóng)一句話在不同場合或由不同的(de)人說出來所具有的不同含義等問題,尚無明確規律可循,需要加強語用學的研究才能逐步解決。另一方麵,人理解一個句子不是單憑語法,還運用(yòng)了大量(liàng)的有關知識,包括(kuò)生活知識和專門(mén)知識,這些知識無法全部貯存在計算(suàn)機裏。因此一個(gè)書麵理(lǐ)解係統(tǒng)隻能建立在有限的詞匯、句型和特定的主題範圍內;計算機的貯存量和運轉速度大大提高之後,才有可能適當擴大範圍.
以上存(cún)在的問題成為自然語言理解(jiě)在機器翻譯應用(yòng)中的主要難題,這也(yě)就是當今機器翻譯係統的譯文質量離理想目(mù)標仍相(xiàng)差甚遠的原因之一;而譯文質量是機譯(yì)係統成敗的關(guān)鍵。中國(guó)數學家、語(yǔ)言學家周海中教授曾在**論文(wén)《機器翻譯五十年》中指出:要提高機譯的質量,首先要解決的是語言本身問題而不是程序設計問題;單靠若幹程序來(lái)做機譯(yì)係統(tǒng),肯定是無法提高機譯質量的;另外(wài)在人類(lèi)尚未明了大腦是如何進行語言的模糊識別和邏(luó)輯判斷的情(qíng)況下,機(jī)譯要想達到“信、達、雅”的程度是不(bú)可能的。