我們上一篇講到數據預處理直接會影響數據分析結果的準確性,數據預處理也是開始數據挖掘工作的重要一步,那么數據挖掘到底能幫助我們解決哪些更深層的數據分析工作呢,下面我們就做簡單介紹。
數據挖掘最重要的要素是分析人員的相關業務知識和思維模式。一般來說,數據挖掘主要側重解決四類問題:分類、聚類、關聯、預測。數據挖掘非常清晰的界定了它所能解決的幾類問題。
一、 分類問題
通過預測模型及對變量的分析,找出其與目標變量的相關特征,并篩選出兩者間的聯系。大前提是通過對歷史數據的收集,明確了具體的分類項目、用戶的分類結果。
分類技術在很多領域都有應用,市場營銷中十分注重對客戶的細分,針對客戶的特點,將他們分為不同的類別。這樣不僅可以找出不同類型客戶的特征,同樣可以進一步了解不同行為類別客戶的分布特征。
下面這些問題可以用分類和回歸技術來解決:
• 如何將信用卡申請人分為低、中、高風險群?
• 如何預測銀行可以安全地貸給貸款人的貸款量?
• 如何有效預測房地產開發中存在的風險?
• 如何預測哪些顧客在未來半年內會取消該公司服務,哪些電話用戶會申請增值服務?
• 如何預測具有某些特征的顧客是否會購買一臺新的計算機?
• 使用3G通信網絡的手機用戶哪些有可能轉換到 4G通信網絡?
• 如何預測一位顧客在一次銷售期間將花多少錢?
• 如何預測病人應當接受三種具體治療方案的哪一種?
二、聚類問題
顧名思義,聚類即“物以類聚”,按照不同的對象,劃分若干不同的問題。聚類問題的核心是其劃分的依據,經過處理后的同一類對象相似度較高,不同的對象則具有較低的相似度。
分類問題與聚類問題是有本質區別的:分類問題是預測一個未知類別的用戶屬于哪個類別,而聚類問題是根據選定的指標,對一群用戶進行劃分,它不屬于預測問題。
聚類問題在商業案例中也是一個非常常見的,例如需要選擇若干個指標(如價值、成本、使用的產品等)對已有的用戶群進行劃分:特征相似的用戶聚為一類,特征不同的用戶分屬于不同的類。
三、關聯問題
關聯分析是在各類數據挖掘算法中比較重要的一種,關聯規則與聚類算法一樣,屬于無監督學習方法。它在許多實際業務中都有應用,最廣泛的應用便是在超市中, 重點是研究用戶同一次購買的產品間的相關性,若購買的產品時間不同,則可以分析出時間先后上的關聯性,“啤酒與尿布”是其中一個著名的案例。
四、預測問題
預測問題的解決更多的是采用統計學的技術,例如回歸分析和時間序列分析。它的主要目的是研究目標變量與影響它的若干相關變量之間的關系。
數據挖掘中的預測問題通過對歷史數據的統計和學習得到預測模型(通過機器學習建立),再利用此模型對未來的輸入輸出值進行預測。預測問題多采用統計學技術解決,如回歸分析和時間序列分析等。回歸分析的主要目的是用來研究目標變量和影響它的相關變量間的關系,用于解決預測問題的回歸分析和關聯分析不同,它較少應用于商業中,更多地應用于自然科學、醫學、心理學等。
?