0833-2303365

當前位置:
· 圖計算平台
來源: | 作者:tpl-c50633d | 發(fā)布時間: 2020-10-23 | 346 次瀏(liú)覽(lǎn) | 分享到:
(以下為臨時文案(àn),您可自由進行更換)自然(rán)語言處理是計算機科學領域與人工(gōng)智能領域中的一個重要方向。它研究能實現人與(yǔ)計算機之(zhī)間用自然語(yǔ)言進行有效通(tōng)信的各種理論和方法。自(zì)然語言(yán)處(chù)理是(shì)一(yī)門融語言(yán)學、計算機科學、數學於一體的科學。因此,這一領域的研究將(jiāng)涉及自然語言,即人們日常(cháng)使用的語言,所以它與語言學的研究有著密切的聯(lián)係,但又有重要的區別。自(zì)然語言處理並不是一般地(dì)研究自然語言,而在於研製能有效地(dì)實現自然語言通信的計算機係統,特別是其中的軟件係統。因而它是計算機科學的一部分。
自然語言處理(NLP)是計算機(jī)科學,人工智能,語言學關注(zhù)計算(suàn)機和(hé)人類(自然)語言之間的相互作用的領域。

語言是人類區別(bié)其(qí)他動物的本質特性。在所(suǒ)有生物中,隻有人(rén)類才具有語言能力。人類的多種智(zhì)能(néng)都與語言有著密(mì)切的(de)關係。人類(lèi)的邏輯思維以語言為形(xíng)式(shì),人類的絕(jué)大部分知識(shí)也是以語言文字的形式記載和流(liú)傳下來的。因而,它也是人(rén)工智能的一(yī)個(gè)重要,甚至核心部分。
用自然語言與計算機進行通信(xìn),這是人們長期以來(lái)所追求的(de)。因為它既有明(míng)顯的(de)實際意義,同時也有(yǒu)重要的理論意義:人們可以用(yòng)自己較習慣的語言來使用計算機,而無需再花大量(liàng)的時間和精力去(qù)學習不(bú)很自然和習慣的各種計算機語言;人們也可(kě)通過它進一步了(le)解人(rén)類的語言能力(lì)和(hé)智能的機製。
實現人機間自然語言通信(xìn)意味著要使(shǐ)計算機既能理解(jiě)自(zì)然語言文本的意義,也能以自然語言文本(běn)來表達給定的意圖、思想等。前(qián)者稱為自(zì)然語言理解,後者(zhě)稱為自然語言生成。因(yīn)此,自然語言處理大體包括了自然語言理解和自然語言生成兩個部分。曆史上對自然語言(yán)理解研究得較多,而對自然語言(yán)生成研究(jiū)得較少。但這種(zhǒng)狀況已有(yǒu)所改變(biàn)。
無論實現自然語言(yán)理解,還是自然語言生成,都遠不如人們原來想象的那麽簡單,而是**困難(nán)的。從現有的理論和技術現狀看,通用的、高質量(liàng)的自然(rán)語言處(chù)理係統,仍然是較長期的努力目標,但是針對一定應用,具有相當自然語言處理能(néng)力的實用係統已經出現,有些已商(shāng)品化,甚(shèn)至開(kāi)始(shǐ)產業化。典型的例子有:多語種(zhǒng)數據庫(kù)和專家係統(tǒng)的自然語言(yán)接口、各種機器翻譯係統、全文信(xìn)息檢索(suǒ)係統、自(zì)動文(wén)摘係統等。
自然語言處理,即實現人機間自(zì)然語言通信,或實現自然語言理解和自然語言生成是**困難的。造成困難的根本原因是自然語言文本(běn)和對話的各個層次上廣泛存在的各(gè)種各樣(yàng)的歧義性或多義性(ambiguity)。
一(yī)個中文文本(běn)從形式上看是(shì)由漢字(包括標點符號等)組成的一個字符串。由字(zì)可組成詞,由詞可組成詞組,由詞組(zǔ)可組成句子,進而由一些句子組成段(duàn)、節、章(zhāng)、篇。無論在上述(shù)的(de)各種層次:字(符(fú))、詞、詞組、句子、段,……還是在下一(yī)層次向上一層次轉變中都存在(zài)著歧義(yì)和多義現(xiàn)象,即形式上一樣(yàng)的一段字符(fú)串,在不同的(de)場景或不同的語境下,可以理解成不同的詞(cí)串(chuàn)、詞組串等,並有不同的(de)意義(yì)。一般情況下,它們中的大多數都是可以根據相應的(de)語境和場景的規定而得到解決的。也就是說,從總體上說,並不存在歧義。這也就(jiù)是我們平時並不感到自然語言歧義,和能用自然語言進行正確交流的原因。但是一方麵,我(wǒ)們也看到,為(wéi)了消解歧義,是(shì)需要(yào)極(jí)其大量的知識和進行推理的。如何將這些知識較完整地加以收集和整理出來;又如何找到合適的形式(shì),將它們存入計算機係統中去;以及如(rú)何有效地利用(yòng)它(tā)們來消除歧義,都是工作量極大且**困難的工作(zuò)。這不是少數人短時期內可以完成的,還有待長期的、係統的工作。
以上說(shuō)的是,一個中文文本或(huò)一個漢字(含標點(diǎn)符號等)串(chuàn)可能有多個含義。它是自然語言理解中的主要困難和障礙。反(fǎn)過來,一個相同或(huò)相近的意義同樣可以用多個中文(wén)文本或多個漢字串來(lái)表示。
因此,自然語言的形式(字符串)與其意義之間是一種多對多的關係。其實這也正是(shì)自然語言的魅力所在。但從計算機處理的角(jiǎo)度看(kàn),我們必須消除歧義,而且有人認為它正是自然語言理解中的中心問題,即要把帶有潛在歧(qí)義的自然語言輸入轉換(huàn)成某種無歧義的(de)計算機內部表示。
歧義現象(xiàng)的廣泛存在使得消除它們需要大(dà)量的知識和(hé)推理,這就給基於語言學的方法、基於知識的方法帶來了巨大的困難,因而以這些方法為主流(liú)的自然語言(yán)處理研究幾十年來一方麵在理論和方法方麵取得了很多成就,但在能處(chù)理(lǐ)大規模真實文本的係統研製方麵,成(chéng)績並不顯著。研製的(de)一(yī)些係統大多數是小規模的、研究性的演示係統。
目前存在的問題有(yǒu)兩(liǎng)個方麵:一(yī)方麵,迄今為止的語法都限於分析一(yī)個孤立的句子,上下文關(guān)係和談話環(huán)境對本句的(de)約束和影響還缺乏係統的(de)研究,因此分析歧義、詞(cí)語省略(luè)、代詞所(suǒ)指、同一句話在不同(tóng)場合或由不同的人說出來所具有的不同含義等問題,尚無明確規律可循,需要加強語用學的研(yán)究才能逐步解(jiě)決。另一方麵,人理(lǐ)解一(yī)個句子不是單憑語法,還運用了大量的有(yǒu)關知識,包括生活知識和專門知識,這些知識無法全(quán)部貯存(cún)在計算機裏。因此一個書麵理解係統隻能建立在(zài)有限的詞匯、句型和特定的主題範圍內;計算機的貯存量和運轉速度大大(dà)提高之後,才有可能適當擴大範(fàn)圍(wéi).
以上存在的問題成為自然語言理解在機器翻譯應用中的主要難題,這也就(jiù)是當今機器翻譯係統的譯文質量(liàng)離理想目標(biāo)仍相差甚遠的原因之一;而譯文質量是機譯係統成敗的關鍵。中國數學家、語言學家(jiā)周海中教授曾在**論文(wén)《機器翻譯五十年》中指出:要提高機譯的質量,首先要解決的是語言(yán)本身問題而不是(shì)程序設計(jì)問題;單靠若幹程序來做機譯係統,肯定是無法提高機譯質量(liàng)的;另外(wài)在(zài)人類尚未明了大腦是如何進行語言的模糊識別和邏輯判斷的情況下,機譯要想達到“信、達、雅”的程度是不可能(néng)的。
麻豆md0049免费_麻豆传媒网站_麻豆福利视频_麻豆精品_麻豆免费入口_麻豆视频官网_麻豆视频网_麻豆视频在线免费观看_麻豆网站在线_免费观看www成人A片麻豆_午夜久久无码成人免费AV麻豆婷_豆麻视频在线免费观看