正當(dāng)時(shí)......

學(xué)術(shù)咨詢(xún)服務(wù)
當(dāng)前位置:職稱(chēng)成果咨詢(xún)網(wǎng)電子信息職稱(chēng)》計(jì)算機(jī)網(wǎng)絡(luò)信息采集技術(shù)產(chǎn)業(yè)初探

計(jì)算機(jī)網(wǎng)絡(luò)信息采集技術(shù)產(chǎn)業(yè)初探

來(lái)源:職稱(chēng)成果咨詢(xún)網(wǎng)作者:田編輯時(shí)間:2020-11-18 09:09
掃碼咨詢(xún)

  摘要:網(wǎng)絡(luò)時(shí)代已經(jīng)到來(lái),網(wǎng)絡(luò)改變了我們的生活方式,也帶動(dòng)了網(wǎng)絡(luò)技術(shù)不斷取得新的進(jìn)步。網(wǎng)絡(luò)信息采集技術(shù)是網(wǎng)絡(luò)建設(shè)的常見(jiàn)方式之一,計(jì)算機(jī)網(wǎng)絡(luò)信息采集技術(shù)將成為重大研究課題。

  關(guān)鍵詞:網(wǎng)絡(luò)信息;概述;采集技術(shù);質(zhì)量控制

  1.前言

  網(wǎng)絡(luò)信息資源極為豐富,概述起來(lái)有以下幾個(gè)特點(diǎn):一是數(shù)字化、網(wǎng)絡(luò)化、虛擬化;網(wǎng)絡(luò)資源以存儲(chǔ)方式數(shù)字化、傳播方式網(wǎng)絡(luò)化、形態(tài)結(jié)構(gòu)虛擬化的方式在網(wǎng)上表現(xiàn)出來(lái)。二是內(nèi)容多樣性;網(wǎng)絡(luò)資源包羅萬(wàn)象,具有大數(shù)量、多類(lèi)型、非規(guī)范、跨時(shí)空、內(nèi)容良莠不齊、質(zhì)量高低不等的特點(diǎn)。三是資源分布無(wú)序性;網(wǎng)絡(luò)資源的構(gòu)成和分布雜亂無(wú)章,缺乏統(tǒng)一的結(jié)構(gòu)和組織。四是資源開(kāi)放性;網(wǎng)上資源是開(kāi)放的、相關(guān)聯(lián)的,用戶(hù)只要將計(jì)算機(jī)連接在網(wǎng)絡(luò)上,就可以任意瀏覽并下載這些網(wǎng)絡(luò)資源。五是動(dòng)態(tài)性;網(wǎng)上資源跨地區(qū)分布,高速傳播,更新淘汰周期短、變化快、不穩(wěn)定,呈高度動(dòng)態(tài)性和很強(qiáng)的時(shí)效性。六是互動(dòng)性;在網(wǎng)上可以形成廣泛的論壇氛圍,專(zhuān)家可以就某一專(zhuān)題開(kāi)設(shè)電子論壇,在網(wǎng)上直接交流討論、反饋用戶(hù)信息,具有很強(qiáng)的互動(dòng)功能。七是增值性;網(wǎng)上信息資源開(kāi)發(fā)與建設(shè)的最終目的是服務(wù)。用戶(hù)在網(wǎng)上利用各種手段查找所需的信息內(nèi)容,在這一過(guò)程中信息被反復(fù)利用,不但不會(huì)導(dǎo)致網(wǎng)上信息資源損耗,反而可使信息增值。

計(jì)算機(jī)網(wǎng)絡(luò)信息采集技術(shù)產(chǎn)業(yè)初探

  2.網(wǎng)絡(luò)信息采集簡(jiǎn)述

  2.1采集方式

  在現(xiàn)在的互聯(lián)網(wǎng)世界里,我們接觸最多的網(wǎng)絡(luò)信息是以Web頁(yè)面形式存在的。另外,電子郵件、FTP、BBS、電子論壇、新聞組也是互聯(lián)網(wǎng)上獲取信息的常見(jiàn)渠道。平常,我們通常利用一些客戶(hù)端軟件手工鏈接到信息源去獲取信息。例如,在win7平臺(tái)上用戶(hù)即可運(yùn)用ie、谷歌、搜狗、有道、360等各類(lèi)瀏覽器上網(wǎng)瀏覽所需的網(wǎng)頁(yè)內(nèi)容;運(yùn)用搜狐郵箱、QQ郵箱、Outlook等收發(fā)郵件;運(yùn)用迅雷等軟件下載軟件、電影、歌曲等。上述客戶(hù)端或軟件為用戶(hù)上網(wǎng)或下載提供了方便,但均需通過(guò)手工輸入鏈接以獲取到所需的信息,但是當(dāng)今網(wǎng)絡(luò)信息爆炸,大量的信息匯聚在一起,單純依靠手工輸入的方式無(wú)形中增加了搜索的工作量和難度,難以滿(mǎn)足用戶(hù)的需求。因此,基于上述情況,信息采集與推送技術(shù)應(yīng)運(yùn)而生,為用戶(hù)瀏覽信息和接收信息提供了極大便利。

  2.2采集技術(shù)

  在網(wǎng)絡(luò)信息時(shí)代,短時(shí)間內(nèi)獲取大量信息的最有效方式就是信息采集,尤其是在創(chuàng)建新站點(diǎn)的過(guò)程中信息采集是最常用的方式。運(yùn)用采集軟件或采集器即可從特定的采集對(duì)象中自動(dòng)獲取到所需的信息,以填充到新站點(diǎn)之中。網(wǎng)絡(luò)搜索引擎也是通過(guò)一個(gè)叫做WebCrawler的機(jī)器人程序負(fù)責(zé)網(wǎng)絡(luò)信息的采集工作的。WebCrawler是一種能夠利用Web文檔內(nèi)的超鏈接遞歸地訪(fǎng)問(wèn)新文檔的程序,它以一個(gè)或一組URL為瀏覽起點(diǎn),對(duì)相應(yīng)的WWW文檔進(jìn)行訪(fǎng)問(wèn)。當(dāng)一個(gè)文檔上傳到服務(wù)器之后即有可能被搜索引擎抓取以創(chuàng)建文檔索引,該文檔中蘊(yùn)含的超鏈接則會(huì)被WebCrawler再次抓取且再次創(chuàng)建新的文檔索引,如此循環(huán)。一方面,為WebCrawler的抓取工作提供了海量的資源;另一方,豐富了網(wǎng)民的網(wǎng)絡(luò)世界,實(shí)現(xiàn)了信息的快速流通。這種信息采集方式集合了定題收集與定向收集以及跟蹤收集等方式,具有采集靈活與方便的特性。

  2.3推送技術(shù)

  網(wǎng)絡(luò)公司根據(jù)自身的需求運(yùn)用相應(yīng)的網(wǎng)絡(luò)技術(shù)并設(shè)定一定的標(biāo)準(zhǔn),從海量的網(wǎng)絡(luò)信息世界中采集所需的信息,經(jīng)過(guò)加工處理之后再傳遞給用戶(hù)。在該模式下,用戶(hù)沒(méi)有主動(dòng)獲取信息之權(quán)而且被動(dòng)的接受網(wǎng)絡(luò)公司提供的信息,但卻節(jié)省了自身搜集信息的時(shí)間與成本。

  3.網(wǎng)絡(luò)信息采集技術(shù)類(lèi)型

  3.1網(wǎng)絡(luò)信息挖掘技術(shù)

  網(wǎng)絡(luò)信息挖掘技術(shù)是指在主題樣本的基礎(chǔ)上,得到數(shù)據(jù)間的內(nèi)在特征,并以此為依據(jù)在網(wǎng)絡(luò)中挖掘與用戶(hù)需求一致的信息的技術(shù)。它是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)中的應(yīng)用,整合了全文檢索、人工智能、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等技術(shù)。網(wǎng)絡(luò)信息挖掘根據(jù)用戶(hù)提供的主題,提取主題特征信息,根據(jù)主題特征自動(dòng)在網(wǎng)絡(luò)中挖掘信息,然后對(duì)挖掘到的信息進(jìn)行整理,導(dǎo)入信息庫(kù),以備過(guò)濾之用。

  3.2網(wǎng)絡(luò)信息抽取技術(shù)

  網(wǎng)絡(luò)信息抽取技術(shù)是指從網(wǎng)絡(luò)自然語(yǔ)言文本中抽取更符合采集主題的信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出的技術(shù)。它是在機(jī)器學(xué)習(xí)、模式挖掘、自然語(yǔ)言處理等技術(shù)基礎(chǔ)之上發(fā)展起來(lái)的一項(xiàng)新技術(shù)。網(wǎng)絡(luò)信息抽取步驟主要分為命名實(shí)體識(shí)別、句法分析、篇章分析與理解以及知識(shí)獲取。①命名實(shí)體識(shí)別。命名實(shí)體是文本中的基本信息元素,是正確理解文本的基礎(chǔ)。命名實(shí)體是現(xiàn)實(shí)世界中的具體或抽象實(shí)體,例如通常由唯一標(biāo)識(shí)符(專(zhuān)有名稱(chēng))表示的人員,組織,公司,地點(diǎn)等,例如姓名,組織名稱(chēng),公司名稱(chēng),地名等。②句法分析。它是計(jì)算機(jī)通過(guò)語(yǔ)法分析來(lái)理解自然語(yǔ)言的基礎(chǔ),例如完整的分析樹(shù)或一組分析樹(shù)片段。③篇章分析與理解。一般來(lái)說(shuō),用戶(hù)的興趣通常在文本的不同位置傳播,文本中隱藏著很多。為了從文本中準(zhǔn)確提取相關(guān)信息,信息提取系統(tǒng)必須能夠識(shí)別文本和文本之間的常見(jiàn)現(xiàn)象。如果文本的來(lái)源更廣泛,許多文本可能會(huì)描述相同的實(shí)體,并且不同文本之間將存在語(yǔ)義歧義。如果同一個(gè)詞有不同的含義,不同的詞意味著一個(gè)意思。為了避免重復(fù)信息,沖突,信息提取系統(tǒng)需要識(shí)別和處理能力參考現(xiàn)象。④知識(shí)獲取。作為一種自然語(yǔ)言處理系統(tǒng),網(wǎng)絡(luò)信息抽取技術(shù)需要知識(shí)庫(kù)的支撐。知識(shí)庫(kù)主要包括:詞典、抽取模式庫(kù)、篇章分析和推理規(guī)則庫(kù)等。

  4.網(wǎng)絡(luò)信息采集過(guò)程中的質(zhì)量控制

  4.1網(wǎng)絡(luò)信息內(nèi)容的選擇

  由于當(dāng)今網(wǎng)絡(luò)站點(diǎn)數(shù)以萬(wàn)計(jì)而且每日處于增長(zhǎng)之中,信息每日俱增,大量?jī)?nèi)容相似乃至重復(fù)的內(nèi)容充斥其中,對(duì)于用普通用戶(hù)而言難以控制信息的重疊,只能被動(dòng)的接受。尤其是在我國(guó)網(wǎng)絡(luò)管理制度不健全的大環(huán)境下,加之搜索引擎在創(chuàng)建之初缺乏信息,并未對(duì)信息進(jìn)行分類(lèi)和篩選而是全盤(pán)接收,由此直接導(dǎo)致了網(wǎng)絡(luò)信息的泛濫與內(nèi)容低質(zhì)化。

  4.2網(wǎng)絡(luò)信息的采集策略

  綜合上述分析,在信息采集過(guò)程中可制定以下幾點(diǎn)采集控制措施:其一,根據(jù)需求合理控制信息采集的深度,以節(jié)省資源和提升效率。針對(duì)網(wǎng)頁(yè)鏈接層次較深的站點(diǎn),全站采集不僅難度較大而且極耗時(shí)間,因此結(jié)合信息內(nèi)容確定網(wǎng)頁(yè)深度,達(dá)到一定的深度即可無(wú)需再進(jìn)行采集;其二,根據(jù)采集信息的內(nèi)容,剔除無(wú)關(guān)緊要或無(wú)需采集的鏈接。一個(gè)站點(diǎn)包含了大量鏈接,其中可能存在諸多重復(fù)鏈接與死鏈等,對(duì)于這樣的鏈接在采集過(guò)程中應(yīng)加以規(guī)避,避免占用采集資源;其三,限制搜索跳轉(zhuǎn)。作為專(zhuān)業(yè)搜索引擎,要采集的信息資源通常集中在幾個(gè)固定的初始網(wǎng)站內(nèi),這樣就不希望網(wǎng)站采集器跳轉(zhuǎn)到其它的網(wǎng)站;其四,根據(jù)采集需求,剔除無(wú)需采集的文件類(lèi)型。

  5.結(jié)束語(yǔ)

  對(duì)于網(wǎng)絡(luò)信息我們要加強(qiáng)采集利用,通過(guò)合理的采集手段保證信息的采集質(zhì)量。

  參考文獻(xiàn)

  [1]郭巖,王宇.網(wǎng)絡(luò)信息抽取技術(shù)研究[J].信息技術(shù)快報(bào),2016(6):15-23.

  [2]劉柏嵩.信息過(guò)濾研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016,(6):23-26.

  作者劉泉林

  推薦閱讀:論文如何通過(guò)網(wǎng)絡(luò)投稿


《計(jì)算機(jī)網(wǎng)絡(luò)信息采集技術(shù)產(chǎn)業(yè)初探》
上一篇:“四化”應(yīng)用與運(yùn)維的幾點(diǎn)實(shí)踐
下一篇:計(jì)算機(jī)軟件數(shù)據(jù)接口的應(yīng)用探析
更多>>

期刊目錄