根據數據集的結構和建索引的難易程度,數據集通常被分為三類。
結構化數據
這類數據最容易整理和搜索,主要包括財務數據、機器日志和人口統計明細等。結構化數據很好理解,類似于 Excel 電子表格中預定義的行列布局。這種結構下的數據很容易分門別類,數據庫設計人員和管理員只需要定義簡單的算法就能實現搜索和分析。不過,即使結構化數據數量非常大,也不一定稱得上大數據,因為結構化數據本身比較易于管理,不符合大數據的定義標準。一直以來,數據庫都是使用 SQL 編程語言管理結構化數據。SQL 是由 IBM 在 20 世紀 70 年代開發的,旨在幫助開發人員構建和管理當時正逐步興起的關系型(電子表格式)數據庫。
非結構化數據
這類數據包括社交媒體內容、音頻文件、圖片和開放式客戶評論等。這些數據通常很難用標準的行列關系型數據庫捕獲。一直以來,企業若想搜索、管理或分析大量非結構化數據,只能依靠繁瑣的手動流程。毫無疑問,分析和理解這類數據能夠為企業帶來價值,但是執行成本往往太過高昂。而且,由于耗時太長,分析結果往往還未交付就已經過時。因為無法存儲在電子表格或關系型數據庫中,所以非結構化數據通常存儲在數據湖、數據倉庫和 NoSQL 數據庫中。
半結構化數據
顧名思義,半結構化數據是結構化數據和非結構化數據的混合體。電子郵件就是一個很好的例子,因為其中的正文屬于非結構化數據,而發件人、收件人、主題和日期等則屬于結構化數據。使用地理標記、時間戳或語義標記的設備也可以同時提供結構化數據和非結構化內容。例如,一張未做標識的智能手機圖片仍然可以告訴你,這是一張自拍照,以及拍攝的時間和地點。采用人工智能技術的現代數據庫不僅能夠即時識別不同類型的數據,還能夠實時生成算法,有效地管理和分析各種相關的數據集。
?