產品介紹
進入21世紀,面對網絡時代信息的爆炸式增長,中文信息處理作為一項基礎性、普適特性的信息技術,面臨著挑戰和再次發展的機遇,在互聯網時代則顯示出其優勢。它的開發利用關系到我國今后信息產業乃至社會經濟的發展和安全,具有巨大的經濟價值和社會價值。
中字信息處理的應用范圍非常廣泛,如編輯文稿整理文件檔案資料和排版印刷等,可以說凡是要文字表達信息的場所,都可以使用文字信息處理技術。文字信息處理的實質就是把文字信息數字,就是用一個固定的數碼代表一個字母或文字,這一數碼就叫做代碼。
中文信息處理應用研究的問題,比如信息輸入中的鍵盤輸入和漢字識別發展已經成熟,但語音識別卻很實現,困難是要適應不同人之間的語音變化以及外界的噪音干擾;中文信息處理研究分散而且存在著低層次重復、缺乏統一規范和標準的問題;現代漢語研究領域和計算機領域的隔絕狀態沒有出現根本性改變;漢語文和少數民族語言文字的信息處理技術與 水平相比,還有相當大的差距。
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。
NLPIR大數據語義智能分析平臺主要有采集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十余項功能模塊,平臺提供了客戶端工具,云服務與二次開發接口等多種產品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統平臺,可以供各類開發語言使用。
隨著信息技術在我國社會生活各個領域應用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,中文信息處理將具有更加廣闊的市場。這將促使中文信息處理方面的 中文搜索引擎、實時機器翻譯、大規模中文文本處理、跨平臺中西文自動識別轉換、泛中文語義理解、中文電子商務等技術實現重大突破。中文信息處理已成為我國信息技術研究、發展、應用和產業的基礎,在互聯網日益成長的今天,中文信息處理技術將會更加成熟并創新。