計(jì)算機(jī)信息處理論文中文信息處理的主流技術(shù)

來源：職稱那點(diǎn)事作者：王編輯時(shí)間：2016-04-13 15:57

　　本文是一篇計(jì)算機(jī)信息處理論文，發(fā)表在《計(jì)算機(jī)工程與設(shè)計(jì)》上，雜志創(chuàng)刊于1980年，由中國航天科工集團(tuán)第二研究院706所主辦，是中國計(jì)算機(jī)學(xué)會(huì)會(huì)刊、北京計(jì)算機(jī)學(xué)會(huì)會(huì)刊和中國宇航學(xué)會(huì)會(huì)刊，是全國中文核心期刊、中國科技核心期刊。該刊是《中國科技引文數(shù)據(jù)庫》、《中國學(xué)術(shù)期刊綜合評價(jià)數(shù)據(jù)庫》、《中文科技期刊數(shù)據(jù)庫》來源期刊，是中國學(xué)術(shù)期刊文摘(中文版)、電子科技文獻(xiàn)數(shù)據(jù)庫、中文科技期刊數(shù)據(jù)庫收錄期刊，是中國科技論文統(tǒng)計(jì)與分析用刊，在“萬方數(shù)據(jù)-數(shù)字化期刊群”全文上網(wǎng)，并由《中國學(xué)術(shù)期刊(光盤版)》和《中國期刊網(wǎng)》全文收錄。

　　論文關(guān)鍵詞：信息處理,N元模型,語音識(shí)別,句法分析,計(jì)算機(jī)信息處理論文

　　論文摘要：本文是計(jì)算機(jī)信息處理論文，分析了中文信息處理的主流技術(shù)，尤其是幾個(gè)重要的部分，即N元模型、語音識(shí)別和句法分析技術(shù)。

　　一、中文信息處理的特點(diǎn)

　　(一)漢字的特殊性

　　我們都知道，英語在計(jì)算機(jī)信息處理方面的優(yōu)勢就是其字母數(shù)量有限，因而可以很容易的進(jìn)行輸入輸出以及信息的加工和處理，而中文的漢字則數(shù)量龐大，且字形相對復(fù)雜，這就給漢字的編碼帶來了不小的困擾。因此我們根據(jù)漢字信息處理過程中的不同要求對漢字進(jìn)行了不同形式的編碼，總結(jié)來說有以下幾種方案，即漢字輸入編碼,漢字標(biāo)準(zhǔn)編碼,漢字內(nèi)碼和漢字形碼。

　　(二)書面漢語的特殊性

　　漢語的另一個(gè)特征是在書面表達(dá)中，詞語和記號(hào)之間沒有明顯的分隔標(biāo)記，這就使自動(dòng)分詞在書面漢語分析中成立一個(gè)難題。分詞需要將連續(xù)的字按照一定的規(guī)范進(jìn)行有序的組合，比較英文我們會(huì)發(fā)現(xiàn)，英文單詞之間都是用空格來做分隔符，而中文則是習(xí)慣通過字、整句以及段落進(jìn)行簡單的劃分，而這其中的一個(gè)難點(diǎn)就是對詞語的劃分，我們都知道，英語中也有短語劃分的問題，但是由于中文的詞語遠(yuǎn)比英語的數(shù)量和范圍要龐大，因而處理起來更為困難。

　　(三)漢語語音的特殊性

　　在語音方面，漢語的特征是音節(jié)結(jié)構(gòu)相對簡單，音節(jié)劃分界限比較清晰，但是聲調(diào)和變調(diào)是中文與英文的顯著區(qū)別，因而在語音識(shí)別和語音合成方面來講這是一個(gè)劣勢，但是總體上來說漢語語音的處理比之其他方面來說還是相對容易的。

　　(四)漢語語法的特殊性

　　在語法方面，漢語詞匯的句法功能相對來說難以判斷，這與英語語言上的多變形態(tài)有著截然不同的表現(xiàn)。漢語主要依靠詞序和虛詞來表達(dá)不同的含義，因此如果不能很好的掌握句法，就特別容易產(chǎn)生歧義，因此漢語語句自動(dòng)分析這一重要技術(shù)是一項(xiàng)難以攻克的技術(shù)。

　　二、中文信息處理的若干技術(shù)

　　(一)N元模型

　　設(shè)wi是文本中的任意一個(gè)詞,如果已知它在該文本中的前兩個(gè)詞wi-2w-1,便可以用條件概率P(wi|wi-2w-1)來預(yù)測wi出現(xiàn)的概率。這就是統(tǒng)計(jì)語言模型的概念。一般來說,如果用變量W代表文本中一個(gè)任意的詞序列,它由順序排列的n個(gè)詞組成,即W=w1w2。。。wn,則統(tǒng)計(jì)語言模型就是該詞序列W在文本中出現(xiàn)的概率P(W)。利用概率的乘積公式,P(W)可展開為:P(W)=P(w1)P(w2|w1)P(w3|w1 w2)。。。P(wn|w1 w2。。。wn-1)不難看出,為了預(yù)測詞w n的出現(xiàn)概率,必須知道它前面所有詞的出現(xiàn)概率。從計(jì)算上來看,這種方法太復(fù)雜了。如果任意一個(gè)詞wi的出現(xiàn)概率只同它前面的兩個(gè)詞有關(guān),問題就可以得到極大的簡化。這時(shí)的語言模型叫做三元模型(tri-gram):P(W)≈P(w1)P(w2|w1)∏i(i=3,。。。,nP(wi|wi-2w-1)

　　《計(jì)算機(jī)周刊》Computer Weekly(周刊)曾用刊名：上海微型計(jì)算機(jī);計(jì)算機(jī)，1982年創(chuàng)刊，本刊集權(quán)威性、理論性與專業(yè)性于一體，具有很高的學(xué)術(shù)價(jià)值，是作者科研、晉級等方面的權(quán)威依據(jù)，歡迎廣大作者積極撰寫論文，踴躍投稿!征稿對象：全國高等學(xué)校、科研及推廣院所站、各級黨政機(jī)關(guān)、企事業(yè)單位的廣大專家學(xué)者、工程技術(shù)人員、碩士博士研究生、管理人員等?！队?jì)算機(jī)周刊》主管單位：長江計(jì)算機(jī)(集團(tuán))公司，主辦單位：長江計(jì)算機(jī)(集團(tuán))公司，國內(nèi)統(tǒng)一刊號(hào)：31-1427/TP，國際標(biāo)準(zhǔn)刊號(hào)：1007-466X