計(jì)算機(jī)信息處理論文淺談中文信息處理的主流技術(shù)
本文是一篇計(jì)算機(jī)信息處理論文,發(fā)表在《計(jì)算機(jī)工程與設(shè)計(jì)》上,雜志創(chuàng)刊于1980年,由中國(guó)航天科工集團(tuán)第二研究院706所主辦,是中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)刊、北京計(jì)算機(jī)學(xué)會(huì)會(huì)刊和中國(guó)宇航學(xué)會(huì)會(huì)刊,是全國(guó)中文核心期刊、中國(guó)科技核心期刊。該刊是《中國(guó)科技引文數(shù)據(jù)庫(kù)》、《中國(guó)學(xué)術(shù)期刊綜合評(píng)價(jià)數(shù)據(jù)庫(kù)》、《中文科技期刊數(shù)據(jù)庫(kù)》來(lái)源期刊,是中國(guó)學(xué)術(shù)期刊文摘(中文版)、電子科技文獻(xiàn)數(shù)據(jù)庫(kù)、中文科技期刊數(shù)據(jù)庫(kù)收錄期刊,是中國(guó)科技論文統(tǒng)計(jì)與分析用刊,在“萬(wàn)方數(shù)據(jù)-數(shù)字化期刊群”全文上網(wǎng),并由《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)》和《中國(guó)期刊網(wǎng)》全文收錄。
論文關(guān)鍵詞:信息處理,N元模型,語(yǔ)音識(shí)別,句法分析,計(jì)算機(jī)信息處理論文
論文摘要:本文是計(jì)算機(jī)信息處理論文,分析了中文信息處理的主流技術(shù),尤其是幾個(gè)重要的部分,即N元模型、語(yǔ)音識(shí)別和句法分析技術(shù)。
一、中文信息處理的特點(diǎn)
(一)漢字的特殊性
我們都知道,英語(yǔ)在計(jì)算機(jī)信息處理方面的優(yōu)勢(shì)就是其字母數(shù)量有限,因而可以很容易的進(jìn)行輸入輸出以及信息的加工和處理,而中文的漢字則數(shù)量龐大,且字形相對(duì)復(fù)雜,這就給漢字的編碼帶來(lái)了不小的困擾。因此我們根據(jù)漢字信息處理過(guò)程中的不同要求對(duì)漢字進(jìn)行了不同形式的編碼,總結(jié)來(lái)說(shuō)有以下幾種方案,即漢字輸入編碼,漢字標(biāo)準(zhǔn)編碼,漢字內(nèi)碼和漢字形碼。
(二)書(shū)面漢語(yǔ)的特殊性
漢語(yǔ)的另一個(gè)特征是在書(shū)面表達(dá)中,詞語(yǔ)和記號(hào)之間沒(méi)有明顯的分隔標(biāo)記,這就使自動(dòng)分詞在書(shū)面漢語(yǔ)分析中成立一個(gè)難題。分詞需要將連續(xù)的字按照一定的規(guī)范進(jìn)行有序的組合,比較英文我們會(huì)發(fā)現(xiàn),英文單詞之間都是用空格來(lái)做分隔符,而中文則是習(xí)慣通過(guò)字、整句以及段落進(jìn)行簡(jiǎn)單的劃分,而這其中的一個(gè)難點(diǎn)就是對(duì)詞語(yǔ)的劃分,我們都知道,英語(yǔ)中也有短語(yǔ)劃分的問(wèn)題,但是由于中文的詞語(yǔ)遠(yuǎn)比英語(yǔ)的數(shù)量和范圍要龐大,因而處理起來(lái)更為困難。
(三)漢語(yǔ)語(yǔ)音的特殊性
在語(yǔ)音方面,漢語(yǔ)的特征是音節(jié)結(jié)構(gòu)相對(duì)簡(jiǎn)單,音節(jié)劃分界限比較清晰,但是聲調(diào)和變調(diào)是中文與英文的顯著區(qū)別,因而在語(yǔ)音識(shí)別和語(yǔ)音合成方面來(lái)講這是一個(gè)劣勢(shì),但是總體上來(lái)說(shuō)漢語(yǔ)語(yǔ)音的處理比之其他方面來(lái)說(shuō)還是相對(duì)容易的。
(四)漢語(yǔ)語(yǔ)法的特殊性
在語(yǔ)法方面,漢語(yǔ)詞匯的句法功能相對(duì)來(lái)說(shuō)難以判斷,這與英語(yǔ)語(yǔ)言上的多變形態(tài)有著截然不同的表現(xiàn)。漢語(yǔ)主要依靠詞序和虛詞來(lái)表達(dá)不同的含義,因此如果不能很好的掌握句法,就特別容易產(chǎn)生歧義,因此漢語(yǔ)語(yǔ)句自動(dòng)分析這一重要技術(shù)是一項(xiàng)難以攻克的技術(shù)。
二、中文信息處理的若干技術(shù)
(一)N元模型
設(shè)wi是文本中的任意一個(gè)詞,如果已知它在該文本中的前兩個(gè)詞wi-2w-1,便可以用條件概率P(wi|wi-2w-1)來(lái)預(yù)測(cè)wi出現(xiàn)的概率。這就是統(tǒng)計(jì)語(yǔ)言模型的概念。一般來(lái)說(shuō),如果用變量W代表文本中一個(gè)任意的詞序列,它由順序排列的n個(gè)詞組成,即W=w1w2。。。wn,則統(tǒng)計(jì)語(yǔ)言模型就是該詞序列W在文本中出現(xiàn)的概率P(W)。利用概率的乘積公式,P(W)可展開(kāi)為:P(W)=P(w1)P(w2|w1)P(w3|w1 w2)。。。P(wn|w1 w2。。。wn-1)不難看出,為了預(yù)測(cè)詞w n的出現(xiàn)概率,必須知道它前面所有詞的出現(xiàn)概率。從計(jì)算上來(lái)看,這種方法太復(fù)雜了。如果任意一個(gè)詞wi的出現(xiàn)概率只同它前面的兩個(gè)詞有關(guān),問(wèn)題就可以得到極大的簡(jiǎn)化。這時(shí)的語(yǔ)言模型叫做三元模型(tri-gram):P(W)≈P(w1)P(w2|w1)∏i(i=3,。。。,nP(wi|wi-2w-1)
《計(jì)算機(jī)周刊》Computer Weekly(周刊)曾用刊名:上海微型計(jì)算機(jī);計(jì)算機(jī),1982年創(chuàng)刊,本刊集權(quán)威性、理論性與專(zhuān)業(yè)性于一體,具有很高的學(xué)術(shù)價(jià)值,是作者科研、晉級(jí)等方面的權(quán)威依據(jù),歡迎廣大作者積極撰寫(xiě)論文,踴躍投稿!征稿對(duì)象:全國(guó)高等學(xué)校、科研及推廣院所站、各級(jí)黨政機(jī)關(guān)、企事業(yè)單位的廣大專(zhuān)家學(xué)者、工程技術(shù)人員、碩士博士研究生、管理人員等。《計(jì)算機(jī)周刊》主管單位:長(zhǎng)江計(jì)算機(jī)(集團(tuán))公司,主辦單位:長(zhǎng)江計(jì)算機(jī)(集團(tuán))公司,國(guó)內(nèi)統(tǒng)一刊號(hào):31-1427/TP,國(guó)際標(biāo)準(zhǔn)刊號(hào):1007-466X
《計(jì)算機(jī)信息處理論文淺談中文信息處理的主流技術(shù)》
- 職稱(chēng)論文刊發(fā)主體資格的
- 政法論文淺析工會(huì)法主體
- 化學(xué)在初中教學(xué)中的情感
- 中學(xué)教育論文思想政治方
- 法治論文投稿法治型市場(chǎng)
- 雜志社論文發(fā)表淺析推動(dòng)
- 新疆教育報(bào)投稿淺析學(xué)生
- 分男女招生錄取的合憲性
最新優(yōu)質(zhì)論文
- 河南群眾文化類(lèi)職稱(chēng)評(píng)審
- 知網(wǎng)能免費(fèi)下載論文嗎
- 寫(xiě)高職英語(yǔ)教育的論文怎
- 水利水電工程師職稱(chēng)論文
- 環(huán)境工程晉升高級(jí)職稱(chēng)條
- 音樂(lè)課老師晉升職稱(chēng)必須
- 膜分離相關(guān)論文發(fā)表期刊
- 職稱(chēng)論文發(fā)表可靠網(wǎng)站有
論文發(fā)表問(wèn)題熱點(diǎn)
- 中醫(yī)藥論文準(zhǔn)備常見(jiàn)問(wèn)題
- 哪能咨詢(xún)發(fā)表論文期刊的
- 會(huì)計(jì)畢業(yè)論文職稱(chēng)論文準(zhǔn)
- 工程師中級(jí)職稱(chēng)評(píng)審條件
- 學(xué)術(shù)期刊規(guī)范化需要注意
- 自考本科論文格式要求
- 發(fā)表論文必須本省的期刊
- 泥泵磨損論文適合哪些期
新聞動(dòng)態(tài)
- 大數(shù)據(jù)時(shí)代計(jì)算機(jī)信息處
- “大數(shù)據(jù)”時(shí)代的計(jì)算機(jī)
- 計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)對(duì)于電子
- 計(jì)算機(jī)信息處理論文中文
- 職稱(chēng)論文刊發(fā)淺析語(yǔ)音識(shí)
同類(lèi)論文
- scopus期刊
- ssci期刊論文
- sci期刊論文
- ei期刊會(huì)議論文
- 英文普刊
- 英文出書(shū)
- 著作與專(zhuān)利