網站首頁 > EIP系統> 升藍EIP 企業內部門戶網站系統功能

升藍EIP 企業內部門戶網站系統功能(4)

數據挖掘

  • 數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
  • 數據挖掘的功能:
  • 數據挖掘通過預測未來趨勢及行為,做出基於知識的決策,數據挖掘也用於具備相關度功能的全文檢索引擎。
  • 數據挖掘的目標:
  • 是從數據庫中發現隱含的、有意義的知識。
  • 信息摘要和全文檢索:
  • 通過數據向量化分析,可對文本信息進行度量,度量的結果通常用於搜索引擎,在信息度量基礎上建立的搜索引擎,不是簡單文字的搜索,而是經過優化的與主題相關度的搜索引擎。
  • 數據採集:建立在數據挖掘技術上的數據採集,可根據「預計主題」在互聯網上有目的地採集信息,如可採集相關行業的各種數據資料、創建潛在客戶資料庫等。
  • 自動預測趨勢和行為:
  • 數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。一個典型的例子是市場預測問題,數據挖掘使用過去有關促銷的數據來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產以及認定對指定事件最可能作出反應的群體。
  • 關聯分析:
  • 數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時並不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
  • 聚類:
  • 數據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。在劃分對像時不僅考慮對像之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統技術的某些片面性。
  • 概念描述:
  • 概念描述就是對某類對象的內涵進行描述,並概括這類對象的有關特徵。概念描述分為特徵性描述和區別性描述,前者描述某類對象的共同特徵,後者描述不同類對像之間的區別。生成一個類的特徵性描述只涉及該類對像中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。
  • 偏差檢測:
  • 數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
數據挖掘功能

全文檢索技術

  • 數據挖掘技術是知識管理、文檔管理、知識價值提升的真正核心功能:
  • 在信息時代,取得大量知識文獻是一件容易的事(例如,通過下載,可以在很短時間內建立起百萬數量級的知識庫)。
  • 但是僅有大量的知識庫/文獻庫實際上是很難產生效益或用途的:
  • 由於計算機文件可複製的特點,使得信息的冗余度和噪音非常高;
  • 文件有大量相同主題或副本、文件的質量參差不齊,用戶不得不花費大量的時候在篩選上,效率低下,而且得不到理想的結果;
  • 文件數量巨大,版本眾多,用戶信息查詢上使用的成本非常高;
  • 由此可見,如果沒有進行有效的數據挖掘,實際上大量的知識/文檔是沒有用的。
  • 例如,當我們遇到問題需要從知識庫中查詢知識的時候,如果知識庫給出的結果是隨機無序的10000個答案,那麼,我們可以說這個結果顯然是沒有使用價值的,如果系統給出10個有序的答案才是有價值的。
  • 如何篩選、索引、判斷質量,使有用的文檔能夠被用戶使用,才是知識管理的最重要核心。
  • 深藍的全文檢索技術,為用戶提供一個與Google相同的搜索引擎功能,不僅僅具有搜索功能,更能根據輸入的關鍵字,找到最佳匹配的文檔,從而實現找到最佳的有用的信息。
  • 深藍的全文檢索技術是通過深藍數據挖掘技術對數據庫進行進行數據向量化分析來實現上述的功能,通過對文本信息進行度量,在信息度量基礎上建立的搜索引擎,不是簡單文字的搜索,而是經過優化的與主題相關度的搜索引擎。
  • 深藍全文檢索能根據不同的知識特徵進行分類,採用多種類型的數據庫進行分佈式存儲,能對各種結構的知識進行統一集成。深藍全文檢索技術,能以各種手段為普通用戶提供便捷的知識查詢,返回有用的結果,同時能在查詢中起到導航作用。

數據挖掘

  • 深藍的數據挖掘技術是一種自然語言信息測量的技術,主要應用於搜索引擎。簡單地理解,就是為企業內部網、知識管理系統、文檔管理系統等提供一個類似Google的搜索引擎。
  • 信息測量技術是非常複雜的計算過程,通過深藍的數據挖掘的技術的計算,可以得到每篇文檔的信息位置,並編錄為索引。
  • 用戶進行搜索時,系統是從關鍵字所預測的主題,從索引的相應的位置的最近空間範圍內取得相應的文檔。具有以下幾項(不僅僅)明顯特點:
  • 搜索結果按關鍵字相關度進行排序,能保證最符合用戶請求的搜索結果排列上方的,使用戶可以輕鬆得到相應的知識。
  • (排序還會考慮文檔的質量和時間效應等因素)
  • 可感知關鍵字的相關關鍵字,即使用戶沒有輸入相關關鍵字,也能得到相應的結果。
  • (如:「學校」和「教育」是兩個不同的詞,但有一定的相關性)
  • 可測量文章的關係,並標識相同或相似的文章。
  • (例如,有一個重要新聞,主要報紙都會報道,每個記者所寫的內容、語文風格都不會相同,但我們沒有必要把所有報紙的報道都讀一遍,使用信息測試技術,可以測試出不同記者編寫同一件事的報道是相同的。)
標題 升藍EIP 企業內部門戶網站系統功能
標籤 EIP, 系統功能, 企業門戶, 內部網站, 企業門戶網站, 門戶網站, 模板, 企業內部網,
摘要 企業流程重組,企業內部結構,企業內部網站,企業網站設計,企業成功案例,企業門戶系統,企業為什麼要上網,企業知識管理系統,erp 企業,企業vi設計,企業辦公自動化軟件,企業財務管理流程圖,企業採購管理流程,企業採購流程圖,企業管理系統論文,SCM 系統,企業信息系統中,ERP 系統,協同商務系統,銀行管理系統
位置 軟件目錄 > 企業門戶 > [系統功能] 升藍EIP 系統功能
日期 創建日期: 2010-05-12, 最近更新: 2010-06-14
上一篇 升藍EIP 企業內部門戶網站系統架構
下一篇 深藍企業門戶網站及企業內部網站目錄
Copyright © 1999-2011     深圳市升藍軟件開發有限公司
網址: www.upblue.com