計(jì)算機(jī)網(wǎng)絡(luò)信息采集技術(shù)產(chǎn)業(yè)初探

來(lái)源：職稱(chēng)成果咨詢(xún)網(wǎng)作者：田編輯時(shí)間：2020-11-18 09:09

　　摘要：網(wǎng)絡(luò)時(shí)代已經(jīng)到來(lái)，網(wǎng)絡(luò)改變了我們的生活方式，也帶動(dòng)了網(wǎng)絡(luò)技術(shù)不斷取得新的進(jìn)步。網(wǎng)絡(luò)信息采集技術(shù)是網(wǎng)絡(luò)建設(shè)的常見(jiàn)方式之一，計(jì)算機(jī)網(wǎng)絡(luò)信息采集技術(shù)將成為重大研究課題。

　　關(guān)鍵詞：網(wǎng)絡(luò)信息；概述；采集技術(shù)；質(zhì)量控制

　　1.前言

　　網(wǎng)絡(luò)信息資源極為豐富，概述起來(lái)有以下幾個(gè)特點(diǎn)：一是數(shù)字化、網(wǎng)絡(luò)化、虛擬化；網(wǎng)絡(luò)資源以存儲(chǔ)方式數(shù)字化、傳播方式網(wǎng)絡(luò)化、形態(tài)結(jié)構(gòu)虛擬化的方式在網(wǎng)上表現(xiàn)出來(lái)。二是內(nèi)容多樣性；網(wǎng)絡(luò)資源包羅萬(wàn)象，具有大數(shù)量、多類(lèi)型、非規(guī)范、跨時(shí)空、內(nèi)容良莠不齊、質(zhì)量高低不等的特點(diǎn)。三是資源分布無(wú)序性；網(wǎng)絡(luò)資源的構(gòu)成和分布雜亂無(wú)章，缺乏統(tǒng)一的結(jié)構(gòu)和組織。四是資源開(kāi)放性；網(wǎng)上資源是開(kāi)放的、相關(guān)聯(lián)的，用戶(hù)只要將計(jì)算機(jī)連接在網(wǎng)絡(luò)上，就可以任意瀏覽并下載這些網(wǎng)絡(luò)資源。五是動(dòng)態(tài)性；網(wǎng)上資源跨地區(qū)分布，高速傳播，更新淘汰周期短、變化快、不穩(wěn)定，呈高度動(dòng)態(tài)性和很強(qiáng)的時(shí)效性。六是互動(dòng)性；在網(wǎng)上可以形成廣泛的論壇氛圍，專(zhuān)家可以就某一專(zhuān)題開(kāi)設(shè)電子論壇，在網(wǎng)上直接交流討論、反饋用戶(hù)信息，具有很強(qiáng)的互動(dòng)功能。七是增值性；網(wǎng)上信息資源開(kāi)發(fā)與建設(shè)的最終目的是服務(wù)。用戶(hù)在網(wǎng)上利用各種手段查找所需的信息內(nèi)容，在這一過(guò)程中信息被反復(fù)利用，不但不會(huì)導(dǎo)致網(wǎng)上信息資源損耗，反而可使信息增值。

計(jì)算機(jī)網(wǎng)絡(luò)信息采集技術(shù)產(chǎn)業(yè)初探

　　2.網(wǎng)絡(luò)信息采集簡(jiǎn)述

　　2.1采集方式

　　在現(xiàn)在的互聯(lián)網(wǎng)世界里，我們接觸最多的網(wǎng)絡(luò)信息是以Web頁(yè)面形式存在的。另外，電子郵件、FTP、BBS、電子論壇、新聞組也是互聯(lián)網(wǎng)上獲取信息的常見(jiàn)渠道。平常，我們通常利用一些客戶(hù)端軟件手工鏈接到信息源去獲取信息。例如，在win7平臺(tái)上用戶(hù)即可運(yùn)用ie、谷歌、搜狗、有道、360等各類(lèi)瀏覽器上網(wǎng)瀏覽所需的網(wǎng)頁(yè)內(nèi)容；運(yùn)用搜狐郵箱、QQ郵箱、Outlook等收發(fā)郵件；運(yùn)用迅雷等軟件下載軟件、電影、歌曲等。上述客戶(hù)端或軟件為用戶(hù)上網(wǎng)或下載提供了方便，但均需通過(guò)手工輸入鏈接以獲取到所需的信息，但是當(dāng)今網(wǎng)絡(luò)信息爆炸，大量的信息匯聚在一起，單純依靠手工輸入的方式無(wú)形中增加了搜索的工作量和難度，難以滿(mǎn)足用戶(hù)的需求。因此，基于上述情況，信息采集與推送技術(shù)應(yīng)運(yùn)而生，為用戶(hù)瀏覽信息和接收信息提供了極大便利。

　　2.2采集技術(shù)

　　在網(wǎng)絡(luò)信息時(shí)代，短時(shí)間內(nèi)獲取大量信息的最有效方式就是信息采集，尤其是在創(chuàng)建新站點(diǎn)的過(guò)程中信息采集是最常用的方式。運(yùn)用采集軟件或采集器即可從特定的采集對(duì)象中自動(dòng)獲取到所需的信息，以填充到新站點(diǎn)之中。網(wǎng)絡(luò)搜索引擎也是通過(guò)一個(gè)叫做WebCrawler的機(jī)器人程序負(fù)責(zé)網(wǎng)絡(luò)信息的采集工作的。WebCrawler是一種能夠利用Web文檔內(nèi)的超鏈接遞歸地訪(fǎng)問(wèn)新文檔的程序，它以一個(gè)或一組URL為瀏覽起點(diǎn)，對(duì)相應(yīng)的WWW文檔進(jìn)行訪(fǎng)問(wèn)。當(dāng)一個(gè)文檔上傳到服務(wù)器之后即有可能被搜索引擎抓取以創(chuàng)建文檔索引，該文檔中蘊(yùn)含的超鏈接則會(huì)被WebCrawler再次抓取且再次創(chuàng)建新的文檔索引，如此循環(huán)。一方面，為WebCrawler的抓取工作提供了海量的資源；另一方，豐富了網(wǎng)民的網(wǎng)絡(luò)世界，實(shí)現(xiàn)了信息的快速流通。這種信息采集方式集合了定題收集與定向收集以及跟蹤收集等方式，具有采集靈活與方便的特性。

　　2.3推送技術(shù)

　　網(wǎng)絡(luò)公司根據(jù)自身的需求運(yùn)用相應(yīng)的網(wǎng)絡(luò)技術(shù)并設(shè)定一定的標(biāo)準(zhǔn)，從海量的網(wǎng)絡(luò)信息世界中采集所需的信息，經(jīng)過(guò)加工處理之后再傳遞給用戶(hù)。在該模式下，用戶(hù)沒(méi)有主動(dòng)獲取信息之權(quán)而且被動(dòng)的接受網(wǎng)絡(luò)公司提供的信息，但卻節(jié)省了自身搜集信息的時(shí)間與成本。

　　3.網(wǎng)絡(luò)信息采集技術(shù)類(lèi)型

　　3.1網(wǎng)絡(luò)信息挖掘技術(shù)

　　網(wǎng)絡(luò)信息挖掘技術(shù)是指在主題樣本的基礎(chǔ)上，得到數(shù)據(jù)間的內(nèi)在特征，并以此為依據(jù)在網(wǎng)絡(luò)中挖掘與用戶(hù)需求一致的信息的技術(shù)。它是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)中的應(yīng)用，整合了全文檢索、人工智能、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等技術(shù)。網(wǎng)絡(luò)信息挖掘根據(jù)用戶(hù)提供的主題，提取主題特征信息，根據(jù)主題特征自動(dòng)在網(wǎng)絡(luò)中挖掘信息，然后對(duì)挖掘到的信息進(jìn)行整理，導(dǎo)入信息庫(kù)，以備過(guò)濾之用。

　　3.2網(wǎng)絡(luò)信息抽取技術(shù)

　　網(wǎng)絡(luò)信息抽取技術(shù)是指從網(wǎng)絡(luò)自然語(yǔ)言文本中抽取更符合采集主題的信息，并形成結(jié)構(gòu)化數(shù)據(jù)輸出的技術(shù)。它是在機(jī)器學(xué)習(xí)、模式挖掘、自然語(yǔ)言處理等技術(shù)基礎(chǔ)之上發(fā)展起來(lái)的一項(xiàng)新技術(shù)。網(wǎng)絡(luò)信息抽取步驟主要分為命名實(shí)體識(shí)別、句法分析、篇章分析與理解以及知識(shí)獲取。①命名實(shí)體識(shí)別。命名實(shí)體是文本中的基本信息元素，是正確理解文本的基礎(chǔ)。命名實(shí)體是現(xiàn)實(shí)世界中的具體或抽象實(shí)體，例如通常由唯一標(biāo)識(shí)符（專(zhuān)有名稱(chēng)）表示的人員，組織，公司，地點(diǎn)等，例如姓名，組織名稱(chēng)，公司名稱(chēng)，地名等。②句法分析。它是計(jì)算機(jī)通過(guò)語(yǔ)法分析來(lái)理解自然語(yǔ)言的基礎(chǔ)，例如完整的分析樹(shù)或一組分析樹(shù)片段。③篇章分析與理解。一般來(lái)說(shuō)，用戶(hù)的興趣通常在文本的不同位置傳播，文本中隱藏著很多。為了從文本中準(zhǔn)確提取相關(guān)信息，信息提取系統(tǒng)必須能夠識(shí)別文本和文本之間的常見(jiàn)現(xiàn)象。如果文本的來(lái)源更廣泛，許多文本可能會(huì)描述相同的實(shí)體，并且不同文本之間將存在語(yǔ)義歧義。如果同一個(gè)詞有不同的含義，不同的詞意味著一個(gè)意思。為了避免重復(fù)信息，沖突，信息提取系統(tǒng)需要識(shí)別和處理能力參考現(xiàn)象。④知識(shí)獲取。作為一種自然語(yǔ)言處理系統(tǒng)，網(wǎng)絡(luò)信息抽取技術(shù)需要知識(shí)庫(kù)的支撐。知識(shí)庫(kù)主要包括：詞典、抽取模式庫(kù)、篇章分析和推理規(guī)則庫(kù)等。

　　4.網(wǎng)絡(luò)信息采集過(guò)程中的質(zhì)量控制

　　4.1網(wǎng)絡(luò)信息內(nèi)容的選擇

　　由于當(dāng)今網(wǎng)絡(luò)站點(diǎn)數(shù)以萬(wàn)計(jì)而且每日處于增長(zhǎng)之中，信息每日俱增，大量?jī)?nèi)容相似乃至重復(fù)的內(nèi)容充斥其中，對(duì)于用普通用戶(hù)而言難以控制信息的重疊，只能被動(dòng)的接受。尤其是在我國(guó)網(wǎng)絡(luò)管理制度不健全的大環(huán)境下，加之搜索引擎在創(chuàng)建之初缺乏信息，并未對(duì)信息進(jìn)行分類(lèi)和篩選而是全盤(pán)接收，由此直接導(dǎo)致了網(wǎng)絡(luò)信息的泛濫與內(nèi)容低質(zhì)化。

　　4.2網(wǎng)絡(luò)信息的采集策略

　　綜合上述分析，在信息采集過(guò)程中可制定以下幾點(diǎn)采集控制措施：其一，根據(jù)需求合理控制信息采集的深度，以節(jié)省資源和提升效率。針對(duì)網(wǎng)頁(yè)鏈接層次較深的站點(diǎn)，全站采集不僅難度較大而且極耗時(shí)間，因此結(jié)合信息內(nèi)容確定網(wǎng)頁(yè)深度，達(dá)到一定的深度即可無(wú)需再進(jìn)行采集；其二，根據(jù)采集信息的內(nèi)容，剔除無(wú)關(guān)緊要或無(wú)需采集的鏈接。一個(gè)站點(diǎn)包含了大量鏈接，其中可能存在諸多重復(fù)鏈接與死鏈等，對(duì)于這樣的鏈接在采集過(guò)程中應(yīng)加以規(guī)避，避免占用采集資源；其三，限制搜索跳轉(zhuǎn)。作為專(zhuān)業(yè)搜索引擎，要采集的信息資源通常集中在幾個(gè)固定的初始網(wǎng)站內(nèi)，這樣就不希望網(wǎng)站采集器跳轉(zhuǎn)到其它的網(wǎng)站；其四，根據(jù)采集需求，剔除無(wú)需采集的文件類(lèi)型。

　　5.結(jié)束語(yǔ)

　　對(duì)于網(wǎng)絡(luò)信息我們要加強(qiáng)采集利用，通過(guò)合理的采集手段保證信息的采集質(zhì)量。

　　參考文獻(xiàn)

　　[1]郭巖，王宇.網(wǎng)絡(luò)信息抽取技術(shù)研究[J].信息技術(shù)快報(bào)，2016（6）：15-23.

　　[2]劉柏嵩.信息過(guò)濾研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù)，2016，（6）：23-26.

　　作者劉泉林

　　推薦閱讀：論文如何通過(guò)網(wǎng)絡(luò)投稿

《計(jì)算機(jī)網(wǎng)絡(luò)信息采集技術(shù)產(chǎn)業(yè)初探》

上一篇：“四化”應(yīng)用與運(yùn)維的幾點(diǎn)實(shí)踐

下一篇：計(jì)算機(jī)軟件數(shù)據(jù)接口的應(yīng)用探析