中級(jí)職稱論文范文基于GATE的中文領(lǐng)域信息
摘 要:為了準(zhǔn)確快速地抽取出用戶感興趣的信息,本文提出基于GATE的領(lǐng)域信息抽取。本文以“教育”領(lǐng)域?yàn)槔薷腉ATE的中文抽取插件Lang_chinese,精準(zhǔn)快速地抽取出該領(lǐng)域的學(xué)校名、專業(yè)名、人名,為進(jìn)一步提高中文信息抽取的準(zhǔn)確率和召回率提供了研究基礎(chǔ)。
關(guān)鍵詞:GATE;領(lǐng)域抽取
隨著現(xiàn)代通信和傳播技術(shù)的不斷發(fā)展,信息巨量生產(chǎn)、高速傳播,人們被大量洶涌而來的信息所包圍。怎么從浩瀚如煙的信息海洋中快速、準(zhǔn)確地找到所需要的信息成為當(dāng)前信息處理的研究重點(diǎn)。
1 信息抽取與GATE框架
1.1 信息抽取。信息抽取(Information Extraction,簡稱IE)是指從文本中直接抽取用戶感興趣的信息,以結(jié)構(gòu)化的形式存入數(shù)據(jù)庫中,可供用戶直接使用或進(jìn)行下一步的信息處理[1]。信息抽取是領(lǐng)域相關(guān)的,只能抽取特定領(lǐng)域或某些范圍內(nèi)有限種類的信息。當(dāng)有大量的文本需要閱讀處理的時(shí)候,信息抽取可以高效、精準(zhǔn)地提取出所需要的領(lǐng)域信息。
1.2 GATE框架。GATE(General Architecture for Text Engineering)是英國Sheffield大學(xué)開發(fā)的,應(yīng)用非常廣泛的開源性自然語言處理框架。GATE框架為信息抽取提供了基本平臺(tái)[2]。針對英文信息抽取,已經(jīng)開發(fā)了基于該框架的應(yīng)用實(shí)例插件ANNIE。ANNIE在英文信息抽取的準(zhǔn)確率和召回率方面均已達(dá)到較高水準(zhǔn),并被一些商業(yè)公司使用,如惠普、大英電信等。
2 基于GATE的中文領(lǐng)域信息抽取
2.1 GATE中自帶的中文信息抽取插件。GATE平臺(tái)除了提供英文信息抽取插件ANNIE,也提供了中文信息抽取插件Lang_Chinese,但其設(shè)計(jì)比較簡單。以中文插件Lang_Chinese的默認(rèn)設(shè)置對文本進(jìn)行抽取時(shí),如希望能抽取出需要的領(lǐng)域信息,如在“教育”領(lǐng)域希望抽取出“學(xué)校”等組織單位,“校長”等人員信息,則結(jié)果不能讓人滿意。
分析其中的原因,主要有以下幾點(diǎn):(1)中文分詞處理不夠?qū)I(yè)。(2)缺乏針對專業(yè)領(lǐng)域構(gòu)造的中文詞表庫。(3)GATE中自帶的JAPE抽取規(guī)則,多是針對英文命名實(shí)體識(shí)別編寫,對中文支持不夠,導(dǎo)致相當(dāng)部分的中文不能被識(shí)別到。
2.2 改進(jìn)的GATE中文領(lǐng)域信息抽取。本研究選取Gate7.1為開發(fā)平臺(tái),針對其中文信息抽取插件Lang_Chinese的不足,面向“教育”領(lǐng)域,研究了改進(jìn)的方法。下面就其中的關(guān)鍵技術(shù)予以介紹:(1)文檔預(yù)處理。本研究采用中科院計(jì)算技術(shù)研究所開發(fā)的ICTCLAS分詞系統(tǒng)對文檔進(jìn)行分詞預(yù)處理。本研究將分詞后的文檔刪去詞性信息,將分開的詞組使用空格隔開,這樣就和英文的格式相同,每個(gè)分開后的詞語可做為一個(gè)Token,便于GATE抽取。(2)增加領(lǐng)域詞表。詞表是GATE進(jìn)行信息抽取的重要資源,詞表的豐富完整影響著命名實(shí)體的識(shí)別效果。Gate中的詞表用.lst文件表示,中文組件中自帶有城市名、組織名、公司名等。然后這些詞表名存在.def索引文件中供匹配訪問。(3)修改JAPE規(guī)則。GATE中使用JAPE規(guī)則來實(shí)現(xiàn)命名實(shí)體的識(shí)別。本文針對中文“教育”領(lǐng)域,編寫對應(yīng)的JAPE規(guī)則,使得該領(lǐng)域的命名實(shí)體能夠得到準(zhǔn)確的識(shí)別抽取。
學(xué)校識(shí)別。GATE7.1中可以使用自帶unversity.lst詞表將部分大中專院校識(shí)別為組織(organization),但對眾多的中小學(xué)無法識(shí)別。并且組織標(biāo)注集含義廣泛,學(xué)會(huì)、公司、政府機(jī)構(gòu)等都會(huì)被識(shí)別為組織。為了更有針對性的進(jìn)行識(shí)別,本研究新增學(xué)校(school)標(biāo)注,并分別針對中小學(xué)、本專科院校及其他各類學(xué)校撰寫相應(yīng)的規(guī)則。
Macro:PRIMARY_HIGH //定義識(shí)別中小學(xué)的宏
({Token.string=="小學(xué)"}|{Token.string=="附小"}|{Token.string=="中學(xué)"}|{Token.string=="附中"}|{Token.string=="小"}|{Token.string=="中"})
Rule:primary_high
//識(shí)別中小學(xué)名,如北京第一師范小學(xué),南京瑯琊路小學(xué),山東師大附中等
(
({Lookup.majorType==location,Lookup.minorType==county_abbrev})
//county_abbrev.lst中存放了大量的地區(qū)名
({Token})
({Token})
({Token})
//分詞后在地區(qū)和中小學(xué)之間可能出現(xiàn)0個(gè)、1個(gè)、2個(gè)或3個(gè)任意詞組
({Token.string=="師范"}|{Token.string=="師范附屬"})
(PRIMARY_HIGH)
):school
-->
:school.school={kind=inferred,rule="primary_high"}
Rule:university
//識(shí)別本??圃盒?,如上海水產(chǎn)大學(xué)等
(
{Lookup.majorType == organization,Lookup.minorType == university}
):school
-->
?。簊chool.school={rule="unversity"}
Rule:school
//識(shí)別其他各類學(xué)校,如幼兒園,成人夜校等
小編推薦優(yōu)秀的電子類期刊 電子設(shè)計(jì)工程
《電子設(shè)計(jì)工程》(半月刊)創(chuàng)刊于1993年,由西安三才科技實(shí)業(yè)有限公司主辦。中國科技核心期刊(科技論文統(tǒng)計(jì)源期刊),原名《國外電子元器件》,主要介紹具有較高學(xué)術(shù)水平的、電子領(lǐng)域相關(guān)的理論、技術(shù)、方法的專業(yè)性技術(shù)期刊。
《中級(jí)職稱論文范文基于GATE的中文領(lǐng)域信息》
- 職稱論文刊發(fā)主體資格的
- 政法論文淺析工會(huì)法主體
- 化學(xué)在初中教學(xué)中的情感
- 中學(xué)教育論文思想政治方
- 法治論文投稿法治型市場
- 雜志社論文發(fā)表淺析推動(dòng)
- 新疆教育報(bào)投稿淺析學(xué)生
- 分男女招生錄取的合憲性
最新優(yōu)質(zhì)論文
- 知網(wǎng)能免費(fèi)下載論文嗎
- 河南群眾文化類職稱評(píng)審
- 寫高職英語教育的論文怎
- 環(huán)境工程晉升高級(jí)職稱條
- 水利水電工程師職稱論文
- 音樂課老師晉升職稱必須
- 膜分離相關(guān)論文發(fā)表期刊
- 職稱論文發(fā)表可靠網(wǎng)站有
論文發(fā)表問題熱點(diǎn)
- 自考本科論文格式要求
- 中醫(yī)藥論文準(zhǔn)備常見問題
- 哪能咨詢發(fā)表論文期刊的
- 會(huì)計(jì)畢業(yè)論文職稱論文準(zhǔn)
- 工程師中級(jí)職稱評(píng)審條件
- 泥泵磨損論文適合哪些期
- 發(fā)表論文必須本省的期刊
- 學(xué)術(shù)期刊規(guī)范化需要注意