正當(dāng)時(shí)......

學(xué)術(shù)咨詢服務(wù)
當(dāng)前位置:職稱那點(diǎn)事電子信息職稱》中級(jí)職稱論文范文基于GATE的中文領(lǐng)域信息

中級(jí)職稱論文范文基于GATE的中文領(lǐng)域信息

來源:職稱那點(diǎn)事作者:職稱論文時(shí)間:2015-04-23 14:08
掃碼咨詢

  摘 要:為了準(zhǔn)確快速地抽取出用戶感興趣的信息,本文提出基于GATE的領(lǐng)域信息抽取。本文以“教育”領(lǐng)域?yàn)槔薷腉ATE的中文抽取插件Lang_chinese,精準(zhǔn)快速地抽取出該領(lǐng)域的學(xué)校名、專業(yè)名、人名,為進(jìn)一步提高中文信息抽取的準(zhǔn)確率和召回率提供了研究基礎(chǔ)。

  關(guān)鍵詞:GATE;領(lǐng)域抽取

  隨著現(xiàn)代通信和傳播技術(shù)的不斷發(fā)展,信息巨量生產(chǎn)、高速傳播,人們被大量洶涌而來的信息所包圍。怎么從浩瀚如煙的信息海洋中快速、準(zhǔn)確地找到所需要的信息成為當(dāng)前信息處理的研究重點(diǎn)。

  1 信息抽取與GATE框架

  1.1 信息抽取。信息抽取(Information Extraction,簡稱IE)是指從文本中直接抽取用戶感興趣的信息,以結(jié)構(gòu)化的形式存入數(shù)據(jù)庫中,可供用戶直接使用或進(jìn)行下一步的信息處理[1]。信息抽取是領(lǐng)域相關(guān)的,只能抽取特定領(lǐng)域或某些范圍內(nèi)有限種類的信息。當(dāng)有大量的文本需要閱讀處理的時(shí)候,信息抽取可以高效、精準(zhǔn)地提取出所需要的領(lǐng)域信息。

  1.2 GATE框架。GATE(General Architecture for Text Engineering)是英國Sheffield大學(xué)開發(fā)的,應(yīng)用非常廣泛的開源性自然語言處理框架。GATE框架為信息抽取提供了基本平臺(tái)[2]。針對英文信息抽取,已經(jīng)開發(fā)了基于該框架的應(yīng)用實(shí)例插件ANNIE。ANNIE在英文信息抽取的準(zhǔn)確率和召回率方面均已達(dá)到較高水準(zhǔn),并被一些商業(yè)公司使用,如惠普、大英電信等。

  2 基于GATE的中文領(lǐng)域信息抽取

  2.1 GATE中自帶的中文信息抽取插件。GATE平臺(tái)除了提供英文信息抽取插件ANNIE,也提供了中文信息抽取插件Lang_Chinese,但其設(shè)計(jì)比較簡單。以中文插件Lang_Chinese的默認(rèn)設(shè)置對文本進(jìn)行抽取時(shí),如希望能抽取出需要的領(lǐng)域信息,如在“教育”領(lǐng)域希望抽取出“學(xué)校”等組織單位,“校長”等人員信息,則結(jié)果不能讓人滿意。

  分析其中的原因,主要有以下幾點(diǎn):(1)中文分詞處理不夠?qū)I(yè)。(2)缺乏針對專業(yè)領(lǐng)域構(gòu)造的中文詞表庫。(3)GATE中自帶的JAPE抽取規(guī)則,多是針對英文命名實(shí)體識(shí)別編寫,對中文支持不夠,導(dǎo)致相當(dāng)部分的中文不能被識(shí)別到。

  2.2 改進(jìn)的GATE中文領(lǐng)域信息抽取。本研究選取Gate7.1為開發(fā)平臺(tái),針對其中文信息抽取插件Lang_Chinese的不足,面向“教育”領(lǐng)域,研究了改進(jìn)的方法。下面就其中的關(guān)鍵技術(shù)予以介紹:(1)文檔預(yù)處理。本研究采用中科院計(jì)算技術(shù)研究所開發(fā)的ICTCLAS分詞系統(tǒng)對文檔進(jìn)行分詞預(yù)處理。本研究將分詞后的文檔刪去詞性信息,將分開的詞組使用空格隔開,這樣就和英文的格式相同,每個(gè)分開后的詞語可做為一個(gè)Token,便于GATE抽取。(2)增加領(lǐng)域詞表。詞表是GATE進(jìn)行信息抽取的重要資源,詞表的豐富完整影響著命名實(shí)體的識(shí)別效果。Gate中的詞表用.lst文件表示,中文組件中自帶有城市名、組織名、公司名等。然后這些詞表名存在.def索引文件中供匹配訪問。(3)修改JAPE規(guī)則。GATE中使用JAPE規(guī)則來實(shí)現(xiàn)命名實(shí)體的識(shí)別。本文針對中文“教育”領(lǐng)域,編寫對應(yīng)的JAPE規(guī)則,使得該領(lǐng)域的命名實(shí)體能夠得到準(zhǔn)確的識(shí)別抽取。

  學(xué)校識(shí)別。GATE7.1中可以使用自帶unversity.lst詞表將部分大中專院校識(shí)別為組織(organization),但對眾多的中小學(xué)無法識(shí)別。并且組織標(biāo)注集含義廣泛,學(xué)會(huì)、公司、政府機(jī)構(gòu)等都會(huì)被識(shí)別為組織。為了更有針對性的進(jìn)行識(shí)別,本研究新增學(xué)校(school)標(biāo)注,并分別針對中小學(xué)、本專科院校及其他各類學(xué)校撰寫相應(yīng)的規(guī)則。

  Macro:PRIMARY_HIGH //定義識(shí)別中小學(xué)的宏

  ({Token.string=="小學(xué)"}|{Token.string=="附小"}|{Token.string=="中學(xué)"}|{Token.string=="附中"}|{Token.string=="小"}|{Token.string=="中"})

  Rule:primary_high

  //識(shí)別中小學(xué)名,如北京第一師范小學(xué),南京瑯琊路小學(xué),山東師大附中等

  (

  ({Lookup.majorType==location,Lookup.minorType==county_abbrev})

  //county_abbrev.lst中存放了大量的地區(qū)名

  ({Token})

  ({Token})

  ({Token})

  //分詞后在地區(qū)和中小學(xué)之間可能出現(xiàn)0個(gè)、1個(gè)、2個(gè)或3個(gè)任意詞組

  ({Token.string=="師范"}|{Token.string=="師范附屬"})

  (PRIMARY_HIGH)

  ):school

  -->

  :school.school={kind=inferred,rule="primary_high"}

  Rule:university

  //識(shí)別本??圃盒?,如上海水產(chǎn)大學(xué)等

  (

  {Lookup.majorType == organization,Lookup.minorType == university}

  ):school

  -->

 ?。簊chool.school={rule="unversity"}

  Rule:school

  //識(shí)別其他各類學(xué)校,如幼兒園,成人夜校等

  小編推薦優(yōu)秀的電子類期刊 電子設(shè)計(jì)工程

  《電子設(shè)計(jì)工程》(半月刊)創(chuàng)刊于1993年,由西安三才科技實(shí)業(yè)有限公司主辦。中國科技核心期刊(科技論文統(tǒng)計(jì)源期刊),原名《國外電子元器件》,主要介紹具有較高學(xué)術(shù)水平的、電子領(lǐng)域相關(guān)的理論、技術(shù)、方法的專業(yè)性技術(shù)期刊。


《中級(jí)職稱論文范文基于GATE的中文領(lǐng)域信息》
上一篇:電力職稱論文征稿電網(wǎng)事故原因分類
下一篇:電子職稱論文范文之計(jì)算機(jī)在自動(dòng)控制的作用
更多>>

期刊目錄