產(chǎn)品介紹
大數(shù)據(jù)時代業(yè)已到來,當(dāng)今世界正處在一個數(shù)據(jù)爆炸的時代。伴隨著多媒體、云計算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)的發(fā)展,以及天文觀測、空間地理、金融分析等各領(lǐng)域每天都在產(chǎn)生巨量的數(shù)據(jù),這些數(shù)據(jù)如此龐大,其規(guī)模、其涌現(xiàn)速度和其處理難點超出目前常規(guī)技術(shù)能管理、處理和分析的能力。一般來說,大數(shù)據(jù)具有量大(Volume)、流動性大(Velocity),種類多(Variety),分布式(distributed)、非一致(nonuniformity)等特性,這些特點決定了在大數(shù)據(jù)時代,我們傳統(tǒng)的數(shù)據(jù)處理技術(shù)必須有革命性的變化,包括數(shù)據(jù)的存儲與組織方式、計算方法、數(shù)據(jù)分析,而對大數(shù)據(jù)的智能分析技術(shù)將尤為重要。
大數(shù)據(jù)的潛在價值是真實而巨大的,為了充分挖掘大數(shù)據(jù)的價值,必須解決一系列技術(shù)問題,這些問題包括數(shù)據(jù)采集、信息抽取和清理、數(shù)據(jù)集成、數(shù)據(jù)分析以及解釋和部署[1].這些問題涉及數(shù)據(jù)獲取、數(shù)據(jù)存儲和管理、數(shù)據(jù)分析、數(shù)據(jù)可視化、應(yīng)用服務(wù)、信息共享、數(shù)據(jù)安全和隱私保護(hù)、大規(guī)模并行計算、流計算、云計算等多層面的信息技術(shù),需要計算機軟、硬件的綜合解決方案.
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項功能模塊,平臺提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,Python,C,C#等各類開發(fā)語言使用。
數(shù)據(jù)挖掘技術(shù)本身就是當(dāng)前數(shù)據(jù)技術(shù)發(fā)展的新領(lǐng)域,文本挖掘則發(fā)展歷史更短。傳統(tǒng)的信息檢索技術(shù)對于海量數(shù)據(jù)的處理并不盡如人意,文本挖掘便日益重要起來,可見文本挖掘技術(shù)是從信息抽取以及相關(guān)技術(shù)領(lǐng)域中慢慢演化而成的。