目前, 自然語(yǔ)言理解研究已經(jīng)取得了令人矚目的成績(jī),在某些方面, 有的研究成果已達(dá)到了實(shí)用化的程度, 比如根據(jù)數(shù)據(jù)庫(kù)里的信息回答問(wèn)題或處理事務(wù), 按照自然語(yǔ)言的命令做一些簡(jiǎn)單的事情等等。 但自然語(yǔ)言理解并未取得根本性的突破。文獻(xiàn)[5]甚至認(rèn)為“整個(gè)自然語(yǔ)言理解獲得成功的例子, 不過(guò)是解決了一個(gè)極為微小的積木世界的問(wèn)題”。要使計(jì)算機(jī)達(dá)到人的理解力,目前在技術(shù)上還面臨著艱巨的挑戰(zhàn)。首先,自然語(yǔ)言是極其復(fù)雜的符號(hào)系統(tǒng)。一個(gè)人盡管可以對(duì)自己的母語(yǔ)運(yùn)用自如,但卻無(wú)法把自己母語(yǔ)的構(gòu)成規(guī)律、意義的表達(dá)規(guī)律和語(yǔ)言使用的規(guī)律用計(jì)算機(jī)可以接受的方式徹底說(shuō)清楚。 傳統(tǒng)的語(yǔ)言學(xué)是在沒(méi)有計(jì)算機(jī)參與的條件下發(fā)展起來(lái)的, 雖然為自然語(yǔ)言理解積累了寶貴的財(cái)富, 但那是講給人的, 真正要讓語(yǔ)言學(xué)知識(shí)變得在計(jì)算機(jī)上可操作, 絕不是那么簡(jiǎn)單, 也不能那么模糊。 其次, 自然語(yǔ)言的各個(gè)層次上都含有巨大的不確定性。 在語(yǔ)音和文字層次上, 有一字多音、 一音多字的問(wèn)題; 在詞法和句法層次上, 有詞類(lèi)詞性、詞邊界、句法結(jié)構(gòu)的不確定性問(wèn)題; 在語(yǔ)義和語(yǔ)用層次上,也有大量的因種種原因造成的內(nèi)涵、外延、指代、言外之義的不確定性。語(yǔ)言學(xué)上把這些不確定性叫做“歧義”。歧義一般不能通過(guò)發(fā)生歧義的語(yǔ)言單位自身獲得解決, 而必須借助于更大的語(yǔ)言單位乃至非語(yǔ)言的環(huán)境、 背景因素和常識(shí)來(lái)解決。 人類(lèi)有很強(qiáng)的依靠整體消除局部不確定性的能力和常識(shí)推理能力, 使計(jì)算機(jī)獲得同樣強(qiáng)大的能力, 還有很長(zhǎng)的路要走。 自然語(yǔ)言不是一成不變的, 它在社會(huì)生活中發(fā)展, 在操不同語(yǔ)言和同一語(yǔ)言的不同變體的人們之間相互影響變化。一個(gè)詞、一個(gè)說(shuō)法可能在一夜之間突然流行起來(lái),特殊的人群結(jié)構(gòu)變化會(huì)導(dǎo)致新的語(yǔ)言或新的語(yǔ)言變體(如方言)的出現(xiàn)。 這就要求理解自然語(yǔ)言的計(jì)算機(jī)程序要具有對(duì)外界語(yǔ)言環(huán)境的應(yīng)變能力。最后, 自然語(yǔ)言是人們交流思想的工具。 既然交流的是思想, 那思想本身在計(jì)算機(jī)里的組織結(jié)構(gòu)就顯得格外重要。在人工智能里,這就是“知識(shí)表示”的問(wèn)題。 可以說(shuō), 在知識(shí)表示問(wèn)題上的突破, 對(duì)于自然語(yǔ)言理解的進(jìn)展將產(chǎn)生決定性的影響。
解決基于中文的自然語(yǔ)言理解問(wèn)題,計(jì)算機(jī)必須獲取句法知識(shí),語(yǔ)義知識(shí)和語(yǔ)用知識(shí)。單純從語(yǔ)法層面,不結(jié)合語(yǔ)義、 語(yǔ)用,自然語(yǔ)言理解很難提高。語(yǔ)義研究是理論和實(shí)踐突破的關(guān)鍵??隙ǖ卦谡Z(yǔ)義空間把握語(yǔ)言和建設(shè)語(yǔ)言系統(tǒng)。這樣將打破語(yǔ)種,領(lǐng)域的局限,進(jìn)入更宏觀的語(yǔ)義理解進(jìn)而實(shí)施構(gòu)建之工程。
4、前景展望和研究意義 國(guó)內(nèi)外關(guān)于自然語(yǔ)言處理與理解方法的研究, 長(zhǎng)期專(zhuān)注于“語(yǔ)法”層次的研究。20世紀(jì)末期以來(lái), 人們認(rèn)識(shí)到單純?cè)谡Z(yǔ)法層次上的研究不能解決問(wèn)題, 開(kāi)始進(jìn)到了 “語(yǔ)義” 的層次, 最好的例子就是互聯(lián)網(wǎng)絡(luò)這幾年的研究正在從WWW走向語(yǔ)義網(wǎng)Semantic Web。然而,自然語(yǔ)言是語(yǔ)法、語(yǔ)義、語(yǔ)
用三者的“有機(jī)統(tǒng)一體” , 只從語(yǔ)法、語(yǔ)義兩個(gè)層次上研究也不能很滿意地解決問(wèn)題。 語(yǔ)用研究的空缺已經(jīng)日益阻礙了自然語(yǔ)言處理的發(fā)展。只有語(yǔ)用、 語(yǔ)義和語(yǔ)法信息的研究都成熟了, 才能真正通過(guò)分析獲得自然語(yǔ)言所表達(dá)的信息, 達(dá)到與人類(lèi)交流對(duì)話的水平。 因此, 未來(lái)的趨勢(shì)是要充分研究和利用自然語(yǔ)言的語(yǔ)法、 語(yǔ)義和語(yǔ)用信息。 實(shí)際上, 走向語(yǔ)法—語(yǔ)義—語(yǔ)用三位一體的層次是必然的出路, 語(yǔ)用作為自然語(yǔ)言中體現(xiàn)效用價(jià)值的因素不可能因?yàn)槔щy總被回避,現(xiàn)在已經(jīng)到了必須要面對(duì)的時(shí)候了。
人類(lèi)已經(jīng)邁入21世紀(jì), 計(jì)算機(jī)和互聯(lián)網(wǎng)的廣泛應(yīng)用昭示著信息時(shí)代的到來(lái)。 計(jì)算機(jī)可處理的自然語(yǔ)言文本數(shù)量空前增長(zhǎng), 面向海量信息的文本挖掘、 信息提取、 跨語(yǔ)言信息處理、 人機(jī)交互等應(yīng)用需求急速增長(zhǎng), 自然語(yǔ)言處理研究必將對(duì)我們的生活產(chǎn)生深遠(yuǎn)的影響。
隨著我國(guó)現(xiàn)代化建設(shè)的發(fā)展, 信息處理技術(shù)的自動(dòng)化愈來(lái)愈顯得緊迫。 人類(lèi)歷史上用語(yǔ)言文字形式記載和流傳的知識(shí)占到知識(shí)總量的80%以上。據(jù)統(tǒng)計(jì), 目前計(jì)算機(jī)的應(yīng)用范圍,用于數(shù)學(xué)計(jì)算的僅占10%, 用于過(guò)程控制的不到5%, 其余 85%以上都是用于語(yǔ)言文字和信息處理的, 并且隨著計(jì)算機(jī)的普及和性能的提高、價(jià)格的降低, 這一趨勢(shì)還在增大。 語(yǔ)言信息處理的技術(shù)水平和每年所處理的信息總量已經(jīng)成為衡量一個(gè)國(guó)家現(xiàn)代化技術(shù)水平的重要標(biāo)志之一。 因此自然語(yǔ)言(漢語(yǔ))處理已成為一個(gè)引人注目的重要學(xué)科, 是我國(guó)實(shí)現(xiàn)信息化和現(xiàn)代化的必經(jīng)之路。 可以這樣說(shuō), 漢語(yǔ)自然語(yǔ)言理解作為中文信息自動(dòng)化處理的關(guān)鍵技術(shù), 每提高一步給我國(guó)的科學(xué)技術(shù)、文化教育、經(jīng)濟(jì)建設(shè)、國(guó)家安全所帶來(lái)的效益, 將是無(wú)法用金錢(qián)的數(shù)額來(lái)計(jì)算的。 反之, 如果落后了,不管是落后于國(guó)際水平還是落后于現(xiàn)實(shí)需求,后果都是嚴(yán)重的。
5、結(jié)束語(yǔ) 在自然語(yǔ)言理解研究的實(shí)踐中, 研究者雖然認(rèn)識(shí)到計(jì)算機(jī)的 “自然語(yǔ)言” 是一種人工語(yǔ)言, 但仍希望電腦能達(dá)到人腦對(duì)自然語(yǔ)言理解的水平, 其中 “知識(shí)表示” 問(wèn)題就典型地反映出這種矛盾狀況。 人們至今不能確定, 計(jì)算機(jī)究竟應(yīng)該儲(chǔ)存多少常識(shí)和專(zhuān)門(mén)知識(shí), 才能達(dá)到令人滿意的自然語(yǔ)言理解水平。 機(jī)器自然語(yǔ)言理解本質(zhì)界定的不明確性是出現(xiàn)上述情況的一個(gè)重要原因, 實(shí)際上, 這也是目前存在頗多分歧的問(wèn)題之一。因此, 要真正達(dá)到機(jī)器完全理解自然語(yǔ)言還有很長(zhǎng)一段路程。
就自然語(yǔ)言理解的現(xiàn)狀和筆者的研究體會(huì)在此強(qiáng)調(diào)如下兩個(gè)方面:既要進(jìn)行語(yǔ)言的語(yǔ)義的徹底揭示,也要保護(hù)人類(lèi)語(yǔ)言的鮮活。前者不夠深入則不能良好地進(jìn)行計(jì)算機(jī)實(shí)現(xiàn),很多技術(shù)瓶頸難于實(shí)質(zhì)性地突破;后者如果把握不好,將出現(xiàn)語(yǔ)言精華的流失,自然語(yǔ)言把握能力的衰退。當(dāng)計(jì)算機(jī)到達(dá)具有篇章語(yǔ)義的處理能力時(shí),自然語(yǔ)言反而失去活力,不自然了。亦即上下求索的兩個(gè)方面都需要把握好,否則文理的對(duì)峙將不能得到消融反而會(huì)加深,這將是巨大的遺憾。相反作為理解語(yǔ)言的兩極其平復(fù)融合將能更深刻的相互解釋和支持,實(shí)現(xiàn)人類(lèi)對(duì)語(yǔ)言的完備認(rèn)識(shí)。我們正致力于這個(gè)良好的平衡的達(dá)成。
-
網(wǎng)站
-
營(yíng)銷(xiāo)
-
設(shè)計(jì)
-
運(yùn)營(yíng)
-
優(yōu)化
-
效率
-
專(zhuān)注
-
電商
-
方案
-
推廣
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。