国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

15158846557 在線咨詢 在線咨詢
15158846557 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷(xiāo)資訊 > 信息時(shí)代 > 自然語(yǔ)言理解綜述

自然語(yǔ)言理解綜述

時(shí)間:2024-01-22 01:45:01 | 來(lái)源:信息時(shí)代

時(shí)間:2024-01-22 01:45:01 來(lái)源:信息時(shí)代

摘 要: 為了解決計(jì)算機(jī)理解自然語(yǔ)言問(wèn)題, 產(chǎn)生了自然語(yǔ)言理解這一研究方向。 文章介紹了自然語(yǔ)言理解的一些特點(diǎn)發(fā)展?fàn)顩r,并歸納了自然語(yǔ)言理解研究中的一些關(guān)鍵問(wèn)題。
關(guān)鍵詞: 自然語(yǔ)言理解; 人工智能; 信息技術(shù)
1、引言
1.1、自然語(yǔ)言理解的學(xué)科內(nèi)涵
自然語(yǔ)言處理( NLP, Natural Language Processing)是使用自然語(yǔ)言同計(jì)算機(jī)進(jìn)行通訊的技術(shù),因?yàn)樘幚碜匀徽Z(yǔ)言的關(guān)鍵是要讓計(jì)算機(jī)“理解”自然語(yǔ)言,所以自然語(yǔ)言處理又叫做自然語(yǔ)言理解(NLU, Natural Language Understanding),也稱為計(jì)算語(yǔ)言學(xué)(Computational Linguistics)。一方面它是語(yǔ)言信息處理的一個(gè)分支, 另一方面它是人工智能(AI,Artificial Intelligence)的核心課題之一。
計(jì)算機(jī)理解的自然語(yǔ)言可分為兩個(gè)方面:1、口語(yǔ)的理解( 如語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音分析等);2、書(shū)面語(yǔ)的理解(如機(jī)器翻譯、自動(dòng)文摘、信息過(guò)濾等)。
1.2、自然語(yǔ)言理解的層次性
從計(jì)算機(jī)處理的角度, 對(duì)自然語(yǔ)言的研究和處理, 一般劃分為如下四個(gè)層次:第一層次是語(yǔ)音和文字, 即基本語(yǔ)言信號(hào)的構(gòu)成; 第二層次是語(yǔ)法和句法 (合稱 “語(yǔ)法” ), 即語(yǔ)言基本運(yùn)用單位的構(gòu)成和組合的形式規(guī)律;第三層次是語(yǔ)義, 即語(yǔ)言所要表達(dá)的概念結(jié)構(gòu); 第四層次是語(yǔ)用, 即語(yǔ)言與語(yǔ)言使用環(huán)境的相互作用。 相應(yīng)地, 語(yǔ)言的分析和理解過(guò)程也應(yīng)當(dāng)是一個(gè)層次化的過(guò)程。 許多語(yǔ)言學(xué)家把這一過(guò)程分為四個(gè)層次: 語(yǔ)音分析、 語(yǔ)法分析、 語(yǔ)義分析、語(yǔ)用分析。其中, 語(yǔ)法分析又可分為詞法分析和句法分析。語(yǔ)音分析是根據(jù)音位規(guī)則, 從語(yǔ)音中區(qū)分出一個(gè)個(gè)獨(dú)立的音素, 再根據(jù)音位形態(tài)規(guī)則找出一個(gè)個(gè)音節(jié)及其對(duì)應(yīng)的詞素或詞。 詞法分析的主要目的是找出詞匯的各個(gè)詞素, 從中獲得語(yǔ)言學(xué)信息。 需要說(shuō)明的是, 在漢語(yǔ)中找出詞素容易, 漢語(yǔ)分析難在詞的切分。 句法分析是對(duì)句子和短語(yǔ)的結(jié)構(gòu)進(jìn)行分析。 句法分析的方法有很多, 格語(yǔ)法、 擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)和功能語(yǔ)法等。分析的目的就是找出詞、 短語(yǔ)等的相互關(guān)系以及各自在句子中的作用等, 并以一種層次結(jié)構(gòu)來(lái)加以表達(dá)。 這種層次結(jié)構(gòu)可以是從屬關(guān)系、直接成分關(guān)系和語(yǔ)法功能關(guān)系。語(yǔ)義分析就是通過(guò)分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定語(yǔ)言所表達(dá)的真正含義或概念。 語(yǔ)用分析, 就是對(duì)語(yǔ)言符號(hào)與語(yǔ)用符號(hào)使用者之間聯(lián)系的研究分析。
2、自然語(yǔ)言理解的發(fā)展?fàn)顩r
1956年以前,人們主要進(jìn)行自然語(yǔ)言處理的基礎(chǔ)性研究作。 1948年Shannon把離散馬爾可夫過(guò)程的概率模型應(yīng)用于描述語(yǔ)言的自動(dòng)機(jī),同時(shí)又把“熵 ” (Entropy)的概念引用到語(yǔ)言處理中。 而Kleene在同一時(shí)期研究了有限自動(dòng)機(jī)和正則表達(dá)式。1956年, Chomsky又提出了上下文無(wú)關(guān)語(yǔ)法。這些工作導(dǎo)致了基于規(guī)則和基于概率兩種不同的自然語(yǔ)言處理方法的誕生, 使得該領(lǐng)域的研究分成了采用規(guī)則方法的符號(hào)派 (Symbolic)和采用概率方法的隨機(jī)派(Stochastic)兩大陣營(yíng),進(jìn)而引發(fā)了數(shù)十年有關(guān)這兩種方法孰優(yōu)孰劣的爭(zhēng)執(zhí)。1956年,人工智能誕生以后, 自然語(yǔ)言處理迅速融入了人工智能的研究中。 隨機(jī)派學(xué)者在這一時(shí)期利用貝葉斯方法等統(tǒng)計(jì)學(xué)原理取得了一定的進(jìn)步; 而以Chomsky為代表的符號(hào)派也進(jìn)行了形式語(yǔ)言理論、生成句法和形式邏輯系統(tǒng)的研究。
由于這一時(shí)期, 多數(shù)學(xué)者注重研究推理和邏輯問(wèn)題, 只有少數(shù)學(xué)者在研究統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò), 所以符號(hào)派的勢(shì)頭明顯強(qiáng)于隨機(jī)派的勢(shì)頭。 1967年美國(guó)心理學(xué)家Neisser提出了認(rèn)知心理學(xué), 從而把自然語(yǔ)言處理與人類(lèi)的認(rèn)知聯(lián)系起來(lái)。70年代初, 由于自然語(yǔ)言處理研究中的一些問(wèn)題未能在短時(shí)間內(nèi)得到解決, 而新的問(wèn)題又不斷地涌現(xiàn), 許多人因此喪失了信心, 自然語(yǔ)言處理的研究進(jìn)入了低谷時(shí)期。盡管如此, 一些發(fā)達(dá)國(guó)家的學(xué)者依舊地研究著。 基于隱馬爾可夫模型 (Hidden Markov Model, HMM)的統(tǒng)計(jì)方法和話語(yǔ)分析(Discourse Analysis)在這一時(shí)期取得了重大進(jìn)展。80年代, 在人們對(duì)于過(guò)去的工作反思之后, 有限狀態(tài)模型和經(jīng)驗(yàn)主義的研究方法開(kāi)始復(fù)蘇。90年代以后, 隨著計(jì)算機(jī)的速度和存儲(chǔ)量大幅增加, 自然語(yǔ)言處理的物質(zhì)基礎(chǔ)大幅改善, 語(yǔ)音和語(yǔ)言處理的商品化開(kāi)發(fā)成為可能; 同時(shí),網(wǎng)絡(luò)技術(shù)的發(fā)展和1994年Internet商業(yè)化使得基于自然語(yǔ)言的信息檢索和信息抽取的需求變得更加突出。自然語(yǔ)言處理的應(yīng)用面不再局限于機(jī)器翻譯、 語(yǔ)音控制等早期研究領(lǐng)域了。從90年代末到21世紀(jì)初,人們逐漸認(rèn)識(shí)到,僅用基于規(guī)則的方法或僅用基于統(tǒng)計(jì)的方法都是無(wú)法成功進(jìn)行自然語(yǔ)言處理的。基于統(tǒng)計(jì)、 基于實(shí)例和基于規(guī)則的語(yǔ)料庫(kù)技術(shù)在這一時(shí)期開(kāi)始蓬勃發(fā)展, 各種處理技術(shù)開(kāi)始融合, 自然語(yǔ)言處理的研究又開(kāi)始興旺起來(lái)。
3、自然語(yǔ)言理解所面臨的問(wèn)題
目前, 自然語(yǔ)言理解研究已經(jīng)取得了令人矚目的成績(jī),在某些方面, 有的研究成果已達(dá)到了實(shí)用化的程度, 比如根據(jù)數(shù)據(jù)庫(kù)里的信息回答問(wèn)題或處理事務(wù), 按照自然語(yǔ)言的命令做一些簡(jiǎn)單的事情等等。 但自然語(yǔ)言理解并未取得根本性的突破。文獻(xiàn)[5]甚至認(rèn)為“整個(gè)自然語(yǔ)言理解獲得成功的例子, 不過(guò)是解決了一個(gè)極為微小的積木世界的問(wèn)題”。要使計(jì)算機(jī)達(dá)到人的理解力,目前在技術(shù)上還面臨著艱巨的挑戰(zhàn)。首先,自然語(yǔ)言是極其復(fù)雜的符號(hào)系統(tǒng)。一個(gè)人盡管可以對(duì)自己的母語(yǔ)運(yùn)用自如,但卻無(wú)法把自己母語(yǔ)的構(gòu)成規(guī)律、意義的表達(dá)規(guī)律和語(yǔ)言使用的規(guī)律用計(jì)算機(jī)可以接受的方式徹底說(shuō)清楚。 傳統(tǒng)的語(yǔ)言學(xué)是在沒(méi)有計(jì)算機(jī)參與的條件下發(fā)展起來(lái)的, 雖然為自然語(yǔ)言理解積累了寶貴的財(cái)富, 但那是講給人的, 真正要讓語(yǔ)言學(xué)知識(shí)變得在計(jì)算機(jī)上可操作, 絕不是那么簡(jiǎn)單, 也不能那么模糊。 其次, 自然語(yǔ)言的各個(gè)層次上都含有巨大的不確定性。 在語(yǔ)音和文字層次上, 有一字多音、 一音多字的問(wèn)題; 在詞法和句法層次上, 有詞類(lèi)詞性、詞邊界、句法結(jié)構(gòu)的不確定性問(wèn)題; 在語(yǔ)義和語(yǔ)用層次上,也有大量的因種種原因造成的內(nèi)涵、外延、指代、言外之義的不確定性。語(yǔ)言學(xué)上把這些不確定性叫做“歧義”。歧義一般不能通過(guò)發(fā)生歧義的語(yǔ)言單位自身獲得解決, 而必須借助于更大的語(yǔ)言單位乃至非語(yǔ)言的環(huán)境、 背景因素和常識(shí)來(lái)解決。 人類(lèi)有很強(qiáng)的依靠整體消除局部不確定性的能力和常識(shí)推理能力, 使計(jì)算機(jī)獲得同樣強(qiáng)大的能力, 還有很長(zhǎng)的路要走。 自然語(yǔ)言不是一成不變的, 它在社會(huì)生活中發(fā)展, 在操不同語(yǔ)言和同一語(yǔ)言的不同變體的人們之間相互影響變化。一個(gè)詞、一個(gè)說(shuō)法可能在一夜之間突然流行起來(lái),特殊的人群結(jié)構(gòu)變化會(huì)導(dǎo)致新的語(yǔ)言或新的語(yǔ)言變體(如方言)的出現(xiàn)。 這就要求理解自然語(yǔ)言的計(jì)算機(jī)程序要具有對(duì)外界語(yǔ)言環(huán)境的應(yīng)變能力。最后, 自然語(yǔ)言是人們交流思想的工具。 既然交流的是思想, 那思想本身在計(jì)算機(jī)里的組織結(jié)構(gòu)就顯得格外重要。在人工智能里,這就是“知識(shí)表示”的問(wèn)題。 可以說(shuō), 在知識(shí)表示問(wèn)題上的突破, 對(duì)于自然語(yǔ)言理解的進(jìn)展將產(chǎn)生決定性的影響。
解決基于中文的自然語(yǔ)言理解問(wèn)題,計(jì)算機(jī)必須獲取句法知識(shí),語(yǔ)義知識(shí)和語(yǔ)用知識(shí)。單純從語(yǔ)法層面,不結(jié)合語(yǔ)義、 語(yǔ)用,自然語(yǔ)言理解很難提高。語(yǔ)義研究是理論和實(shí)踐突破的關(guān)鍵??隙ǖ卦谡Z(yǔ)義空間把握語(yǔ)言和建設(shè)語(yǔ)言系統(tǒng)。這樣將打破語(yǔ)種,領(lǐng)域的局限,進(jìn)入更宏觀的語(yǔ)義理解進(jìn)而實(shí)施構(gòu)建之工程。
4、前景展望和研究意義
國(guó)內(nèi)外關(guān)于自然語(yǔ)言處理與理解方法的研究, 長(zhǎng)期專(zhuān)注于“語(yǔ)法”層次的研究。20世紀(jì)末期以來(lái), 人們認(rèn)識(shí)到單純?cè)谡Z(yǔ)法層次上的研究不能解決問(wèn)題, 開(kāi)始進(jìn)到了 “語(yǔ)義” 的層次, 最好的例子就是互聯(lián)網(wǎng)絡(luò)這幾年的研究正在從WWW走向語(yǔ)義網(wǎng)Semantic Web。然而,自然語(yǔ)言是語(yǔ)法、語(yǔ)義、語(yǔ)
用三者的“有機(jī)統(tǒng)一體” , 只從語(yǔ)法、語(yǔ)義兩個(gè)層次上研究也不能很滿意地解決問(wèn)題。 語(yǔ)用研究的空缺已經(jīng)日益阻礙了自然語(yǔ)言處理的發(fā)展。只有語(yǔ)用、 語(yǔ)義和語(yǔ)法信息的研究都成熟了, 才能真正通過(guò)分析獲得自然語(yǔ)言所表達(dá)的信息, 達(dá)到與人類(lèi)交流對(duì)話的水平。 因此, 未來(lái)的趨勢(shì)是要充分研究和利用自然語(yǔ)言的語(yǔ)法、 語(yǔ)義和語(yǔ)用信息。 實(shí)際上, 走向語(yǔ)法—語(yǔ)義—語(yǔ)用三位一體的層次是必然的出路, 語(yǔ)用作為自然語(yǔ)言中體現(xiàn)效用價(jià)值的因素不可能因?yàn)槔щy總被回避,現(xiàn)在已經(jīng)到了必須要面對(duì)的時(shí)候了。
人類(lèi)已經(jīng)邁入21世紀(jì), 計(jì)算機(jī)和互聯(lián)網(wǎng)的廣泛應(yīng)用昭示著信息時(shí)代的到來(lái)。 計(jì)算機(jī)可處理的自然語(yǔ)言文本數(shù)量空前增長(zhǎng), 面向海量信息的文本挖掘、 信息提取、 跨語(yǔ)言信息處理、 人機(jī)交互等應(yīng)用需求急速增長(zhǎng), 自然語(yǔ)言處理研究必將對(duì)我們的生活產(chǎn)生深遠(yuǎn)的影響。
隨著我國(guó)現(xiàn)代化建設(shè)的發(fā)展, 信息處理技術(shù)的自動(dòng)化愈來(lái)愈顯得緊迫。 人類(lèi)歷史上用語(yǔ)言文字形式記載和流傳的知識(shí)占到知識(shí)總量的80%以上。據(jù)統(tǒng)計(jì), 目前計(jì)算機(jī)的應(yīng)用范圍,用于數(shù)學(xué)計(jì)算的僅占10%, 用于過(guò)程控制的不到5%, 其余 85%以上都是用于語(yǔ)言文字和信息處理的, 并且隨著計(jì)算機(jī)的普及和性能的提高、價(jià)格的降低, 這一趨勢(shì)還在增大。 語(yǔ)言信息處理的技術(shù)水平和每年所處理的信息總量已經(jīng)成為衡量一個(gè)國(guó)家現(xiàn)代化技術(shù)水平的重要標(biāo)志之一。 因此自然語(yǔ)言(漢語(yǔ))處理已成為一個(gè)引人注目的重要學(xué)科, 是我國(guó)實(shí)現(xiàn)信息化和現(xiàn)代化的必經(jīng)之路。 可以這樣說(shuō), 漢語(yǔ)自然語(yǔ)言理解作為中文信息自動(dòng)化處理的關(guān)鍵技術(shù), 每提高一步給我國(guó)的科學(xué)技術(shù)、文化教育、經(jīng)濟(jì)建設(shè)、國(guó)家安全所帶來(lái)的效益, 將是無(wú)法用金錢(qián)的數(shù)額來(lái)計(jì)算的。 反之, 如果落后了,不管是落后于國(guó)際水平還是落后于現(xiàn)實(shí)需求,后果都是嚴(yán)重的。
5、結(jié)束語(yǔ)
在自然語(yǔ)言理解研究的實(shí)踐中, 研究者雖然認(rèn)識(shí)到計(jì)算機(jī)的 “自然語(yǔ)言” 是一種人工語(yǔ)言, 但仍希望電腦能達(dá)到人腦對(duì)自然語(yǔ)言理解的水平, 其中 “知識(shí)表示” 問(wèn)題就典型地反映出這種矛盾狀況。 人們至今不能確定, 計(jì)算機(jī)究竟應(yīng)該儲(chǔ)存多少常識(shí)和專(zhuān)門(mén)知識(shí), 才能達(dá)到令人滿意的自然語(yǔ)言理解水平。 機(jī)器自然語(yǔ)言理解本質(zhì)界定的不明確性是出現(xiàn)上述情況的一個(gè)重要原因, 實(shí)際上, 這也是目前存在頗多分歧的問(wèn)題之一。因此, 要真正達(dá)到機(jī)器完全理解自然語(yǔ)言還有很長(zhǎng)一段路程。
就自然語(yǔ)言理解的現(xiàn)狀和筆者的研究體會(huì)在此強(qiáng)調(diào)如下兩個(gè)方面:既要進(jìn)行語(yǔ)言的語(yǔ)義的徹底揭示,也要保護(hù)人類(lèi)語(yǔ)言的鮮活。前者不夠深入則不能良好地進(jìn)行計(jì)算機(jī)實(shí)現(xiàn),很多技術(shù)瓶頸難于實(shí)質(zhì)性地突破;后者如果把握不好,將出現(xiàn)語(yǔ)言精華的流失,自然語(yǔ)言把握能力的衰退。當(dāng)計(jì)算機(jī)到達(dá)具有篇章語(yǔ)義的處理能力時(shí),自然語(yǔ)言反而失去活力,不自然了。亦即上下求索的兩個(gè)方面都需要把握好,否則文理的對(duì)峙將不能得到消融反而會(huì)加深,這將是巨大的遺憾。相反作為理解語(yǔ)言的兩極其平復(fù)融合將能更深刻的相互解釋和支持,實(shí)現(xiàn)人類(lèi)對(duì)語(yǔ)言的完備認(rèn)識(shí)。我們正致力于這個(gè)良好的平衡的達(dá)成。

關(guān)鍵詞:

74
73
25
news
  • 網(wǎng)站
  • 營(yíng)銷(xiāo)
  • 設(shè)計(jì)
  • 運(yùn)營(yíng)
  • 優(yōu)化
  • 效率
  • 專(zhuān)注
  • 電商
  • 方案
  • 推廣
為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉