產(chǎn)品介紹
在信息化建設(shè)的過程中,數(shù)據(jù)分為三種類型: 結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù).隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算、3G、4G等技術(shù)的出現(xiàn)與普及,產(chǎn)生數(shù)據(jù)的設(shè)備也越來越多范圍越來越廣,大量非結(jié)構(gòu)化數(shù)據(jù),每時(shí)每刻都在產(chǎn)生并且傳播開來.如視頻、圖片、交互網(wǎng)站等,這些海量的數(shù)據(jù)顯然不能被存儲(chǔ)在預(yù)定義的結(jié)構(gòu)化表格中,相反,這些數(shù)據(jù)甚至來不及用傳統(tǒng)的數(shù)據(jù)管理模式來分析、存儲(chǔ)和管理,這就是大數(shù)據(jù).如何從海量的數(shù)據(jù)中分析和獲取特定的需求信息,這就是研究大數(shù)據(jù)的意義。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是對語法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
其中KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發(fā)的知識圖譜構(gòu)建與推理引擎,基于漢語詞法分析的基礎(chǔ)上,采用KGB語法實(shí)現(xiàn)了實(shí)時(shí) 的知識生成,可以從非結(jié)構(gòu)化文本中抽取各類知識,并實(shí)現(xiàn)了從表格中抽取指定的內(nèi)容等。KGB同時(shí)可以定義不同的動(dòng)作,如抽取動(dòng)作,并能自定義各類后處理程序。利用KGB知識圖譜引擎可以抽取到產(chǎn)品的詳細(xì)報(bào)價(jià)信息,方便進(jìn)行下一步的數(shù)據(jù)挖掘與圖譜構(gòu)建。
例如KGB語法:
Knowledge: { [/LE;/w]+[采購方;甲方;發(fā)包方; 需方]} +1+{[-(/LE;/w)]20}s+{[(/LE;/w)]}
Action: Extract
Argument:甲方單位
表示的是:
如果 句首或者標(biāo)點(diǎn)后,跟了{(lán)采購方;甲方;發(fā)包方};后面1步內(nèi)跟的不是標(biāo)點(diǎn)也不是是句尾,20個(gè)單元內(nèi)的部分,將選中的詞抽取為甲方單位。
因此,數(shù)據(jù)挖掘技術(shù)是一個(gè)發(fā)展十分快的領(lǐng)域,?隨著對數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域日益廣泛的應(yīng)用,實(shí)現(xiàn)了數(shù)據(jù)資源共享及技術(shù)發(fā)展的跨域,從而大大提高了工作效率,并帶來巨大的成功。21世紀(jì)是信息時(shí)代的社會(huì),“信息不僅是資源,更是財(cái)富”,要實(shí)現(xiàn)經(jīng)濟(jì)的騰飛,需依賴高新尖科技的發(fā)展,故利用提供的信息,充分進(jìn)行數(shù)據(jù)挖掘,則將為數(shù)據(jù)庫的應(yīng)用開辟了廣闊的前景,也為人類的文明開辟了一個(gè)嶄新的時(shí)代。