產(chǎn)品介紹
語言是由語音形式、語義內(nèi)容、結(jié)構(gòu)關(guān)系三個(gè)方面構(gòu)成的統(tǒng)一體,三個(gè)方面缺一不可,互相作用,構(gòu)成了語言。語音是語言的形式部分,詞匯是語言的意義部分,語法是語言單位的關(guān)系部分,說的是符號(hào)與符號(hào)怎樣組合的問題。三個(gè)部分在語言中的作用,我們可以這樣簡(jiǎn)單來表述:沒有語音形式,語言就無法存在,沒有詞匯的內(nèi)容意義,語言就是一個(gè) 毫無作用的空殼,沒有語法,語言就是一盤雜亂而毫無章法的散沙。
進(jìn)入21世紀(jì),面對(duì)網(wǎng)絡(luò)時(shí)代信息的爆炸式增長(zhǎng),中文信息處理作為一項(xiàng)基礎(chǔ)性、普適特性的信息技術(shù),面臨著挑戰(zhàn)和再次發(fā)展的機(jī)遇,在互聯(lián)網(wǎng)時(shí)代則顯示出其優(yōu)勢(shì)。它的開發(fā)利用關(guān)系到我國今后信息產(chǎn)業(yè)乃至社會(huì)經(jīng)濟(jì)的發(fā)展和信息安全,具有巨大的經(jīng)濟(jì)價(jià)值和社會(huì)價(jià)值。
中文信息處理技術(shù)自動(dòng)化水平的提高,將大大促進(jìn)我國科技、國民經(jīng)濟(jì)和社會(huì)發(fā)展,同時(shí)使中華民族的文化在信息時(shí)代得到新的發(fā)展。未來無疑應(yīng)當(dāng)加強(qiáng)中文信息處理技術(shù)的研發(fā)投入與政策傾斜。我國的中文信息處理技術(shù)還有自身一系列急需解決的基礎(chǔ)研究和應(yīng)用技術(shù)問題。這些問題如果從現(xiàn)在起還得不到切實(shí)的加強(qiáng),我們?cè)谥形男畔⑻幚硎聵I(yè)中僅有的一些優(yōu)勢(shì),就要迅速失去,那將給我國造成的損失。
目前中文信息處理能力與 上 水平差距還很大。例如:自動(dòng)分詞和詞性標(biāo)注,至今還未開發(fā)出一個(gè)像日語分詞系統(tǒng)那樣被廣為接受的分詞標(biāo)注系統(tǒng)。從采用的方法可以看出,隨著研究的不斷深入,基于統(tǒng)計(jì)的方法已逐漸暴露自身的缺陷,統(tǒng)計(jì)方法不可能解決所有的問題,還是需要結(jié)合基于規(guī)則的方法,才能在精度上得以突破;
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺(tái)。
NLPIR大數(shù)據(jù)語義智能分析平臺(tái)主要有采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計(jì)、文本聚類、文本分類、摘要實(shí)體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺(tái)提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個(gè)中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容不同操作系統(tǒng)平臺(tái),可以供Java,Python,C,C#等各類開發(fā)語言使用。