0833-2303365

當前(qián)位置:
· 畫像係統
來源: | 作者:tpl-c50633d | 發布時間: 2020-10-23 | 365 次瀏覽 | 分(fèn)享到:
(以下為臨(lín)時文案,您(nín)可自由進行更換)自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研(yán)究能實(shí)現(xiàn)人與計(jì)算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學於一體的科學。因此,這一領域的研究將涉及自然語(yǔ)言,即人們日常使用的(de)語言,所(suǒ)以它與語言學的研究有著密切的聯係,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地(dì)實現自(zì)然語言通信的計算機係統,特別是其中的軟件係統。因而(ér)它是計算機科學的一部分。
自(zì)然語言處理(NLP)是計算機科學,人工智(zhì)能,語言學關注計算機和人類(自然)語言之間的相互作用的領域。

語言是人類區別(bié)其(qí)他動物的本質特性。在所有生物中,隻(zhī)有人(rén)類才(cái)具有語言能力。人類(lèi)的多種智能都與語言有著密切的關係。人類的邏輯思維以語(yǔ)言(yán)為(wéi)形式,人類的絕大部分知識也是以語言文字的形式記載和流傳下來的。因而,它也是人工智能的一個重要,甚至核心部分。
用自然語言與計算機(jī)進行(háng)通信,這是人(rén)們(men)長期以來所追求的。因為它既有明顯的實際意義(yì),同時也有重要的理論意義:人們可以用自己較習慣的語言來(lái)使用計(jì)算機,而無需再花大量的(de)時間和精力去學習不(bú)很自然和(hé)習慣的各種計算機語言;人們(men)也可通過它進一步了解(jiě)人類的語言能力和智能的機製。
實現人機間自然語言通信意味(wèi)著要使計算機既能理解自然語言文本的意(yì)義,也能以自然語言文本來(lái)表達給定的意圖、思想等。前者稱為自然語言理解,後者稱(chēng)為自然(rán)語言生成。因此,自然(rán)語言處理大體包括了自然語言理解和自然語言(yán)生成兩個部(bù)分。曆史上對自然語言理解研究得較多,而對自然語言生成研究得較少。但這種狀況已(yǐ)有所改(gǎi)變。
無論實現自然(rán)語言理解(jiě),還是自然語言生(shēng)成,都遠不如人(rén)們原來想象的那麽(me)簡單(dān),而是(shì)**困(kùn)難的。從現有的理論和技術現狀看,通用的、高質量的自然語言處理係統(tǒng),仍然是(shì)較長期的努力目標,但是(shì)針對一定應用,具有相當自(zì)然語言處理能力的實用係統已經出(chū)現,有些已商(shāng)品化,甚(shèn)至開始產業化。典型的例子有:多語種數據庫(kù)和專家(jiā)係(xì)統的自然語言接口(kǒu)、各種機(jī)器(qì)翻譯係統、全文信(xìn)息檢索係統、自動(dòng)文摘係統等。
自然語言處理(lǐ),即實現人機間自然語言通信,或實現自然語言理解和自然語言生成是(shì)**困難的。造成困難的根本(běn)原因是自然語言文本和對話的各個層次上廣(guǎng)泛存在的各種各樣的歧義性或多義(yì)性(ambiguity)。
一個中(zhōng)文文(wén)本從形式上看是由漢字(包括標點符號等)組成的一(yī)個字符串。由字可組(zǔ)成詞,由詞可(kě)組成詞組,由詞組可組成句子,進(jìn)而由一些句子組成段、節、章、篇。無論在上述的各種層次:字(符)、詞(cí)、詞組、句(jù)子、段,……還是在下一層次向上一層次轉(zhuǎn)變中都存在著歧義和多義現象,即(jí)形式上一樣的一段字符串,在不同的場景或(huò)不同的語境下,可以理解成不同的詞串、詞組串等,並有不同的意義。一般情況下,它們中的大多數都是可以根據相(xiàng)應(yīng)的語境和(hé)場景的規定而(ér)得到解決的。也就是(shì)說,從總體上說,並不存在歧義。這也就是我們(men)平時並(bìng)不感到自然語言歧義,和能(néng)用自然語言進行正確交流的原(yuán)因(yīn)。但(dàn)是一方麵,我們也看到,為了消解(jiě)歧義,是需(xū)要極其大量的知識和進行推理的。如何將這些知識較完整地加以收(shōu)集(jí)和整理出來;又(yòu)如何(hé)找到合適的形(xíng)式,將它們存入計算機係統中去;以及如何有效地利用它們(men)來消除歧義,都(dōu)是工作(zuò)量極大且**困(kùn)難的工作。這不是少數人(rén)短(duǎn)時期內可以完成的,還(hái)有待(dài)長期的、係統的工作。
以上說的是,一(yī)個中文文本或一個漢字(含標點符號等)串可能有多個含義。它是自然語言理(lǐ)解中的主要困難和障礙。反過來,一個(gè)相(xiàng)同或相近的意義(yì)同樣可以用多個中文文(wén)本或多個漢字串來表示。
因此,自然語言的形式(字符串)與其意(yì)義之間是一種多對多的關係。其實這也(yě)正是自然語言的魅力所(suǒ)在。但從計算機處理的角度看,我們必須消除歧(qí)義,而且(qiě)有人認為它(tā)正是自然語言理(lǐ)解中的中心問題,即要把帶有(yǒu)潛在歧義的自然語言輸入轉換成某種無歧(qí)義的計算機(jī)內部表示。
歧義現象的廣泛存在使得(dé)消除(chú)它們需要大量的知(zhī)識和推理(lǐ),這就給基於語言學的方(fāng)法、基於(yú)知識的方法帶來了巨大的困(kùn)難,因而以這些方法為主流的自然語言處理研究幾十年來一方麵(miàn)在理論和方法方麵取得了很多成就,但在能處理大規模真實文本的係統研製方麵,成績並不顯著。研製的一些(xiē)係統大多數是小規模的、研究性的演示係(xì)統(tǒng)。
目前存在的問題有兩個方(fāng)麵:一方麵,迄(qì)今(jīn)為止的語法(fǎ)都限於分析一個孤立的句子,上下(xià)文關係和談話環境對本(běn)句的約束和影(yǐng)響還缺乏係統的研究,因此分析歧義、詞語省略、代詞所指(zhǐ)、同一句話(huà)在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規律可(kě)循,需(xū)要加強語用學的(de)研究才能(néng)逐步解決(jué)。另一方麵,人理解一個句子不是單憑(píng)語法(fǎ),還(hái)運用了大量的有關知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機裏。因此一個書(shū)麵理(lǐ)解(jiě)係統隻能建立在有限的詞匯、句型和特定的主題範圍內;計(jì)算機的貯存量和運轉速度大大(dà)提(tí)高之後,才有可能(néng)適當擴大範圍.
以上存(cún)在的問題成為自(zì)然語言理解在機器翻譯應用中的主要難題,這也就是當今機器翻譯係統的譯文質量離理想目標仍相差甚遠的原因之一;而(ér)譯文質(zhì)量是機譯係統成敗的關鍵。中國數學家、語言學家周海中教授曾在**論文《機器翻譯五十(shí)年(nián)》中指出:要提高機譯的(de)質量,首先要(yào)解決的是語言(yán)本身問題而不是程序設計問題(tí);單靠若幹程序來(lái)做機譯係統,肯定是無法提高機譯質量的(de);另(lìng)外在人類尚未明了大腦是如何進行語言的(de)模糊識別(bié)和邏輯判斷的情況下,機譯要想達到“信、達、雅”的程度是不可能的。
麻豆md0049免费_麻豆传媒网站_麻豆福利视频_麻豆精品_麻豆免费入口_麻豆视频官网_麻豆视频网_麻豆视频在线免费观看_麻豆网站在线_免费观看www成人A片麻豆_午夜久久无码成人免费AV麻豆婷_豆麻视频在线免费观看