哦哇資訊網

大資料學習筆記(1)

由 失業中年大叔 發表于 美食2023-01-12

資料質量問題

資料質量很重要,它是一切資料建設和資料產品化的基礎。

低質量的資料不僅使用不便,還有可能誤導決策,導致災難性的結果。說得直接一點,資料質量的高低決定了資料是否能夠真正發揮價值。”

資料質量的問題在很多小企業中尤為嚴重,這些企業採用“業務先發展,資料後治理”的思路,導致後期做資料治理的成本極高,甚至到了資料質量影響業務發展,企業不得不重新採集資料的地步,對時間成本和人力成本造成極大的浪費。

例如,報表的資料產出經常延遲,甚至經常出現數據不一致的情況,這讓大家很困惑;除此之外,還有指標同名不同義、同義不同名的情況等。

資料質量的衡量

從定性的角度來看,資料質量的衡量涉及資料的完整性、資料的準確性、資料的一致性、資料的規範性及資料的時效性等。

1。資料的完整性

資料的完整性主要是透過採集資料的完整程度來衡量的,它被用於評估應採集資料和實際採集資料之間的差異。例如,在電商的使用者個人資訊頁中,電商平臺會讓使用者完善頭像、暱稱、性別、出生日期等資料;在使用者下單的過程中,電商平臺會讓使用者填寫收件人、收件地址、電話號碼等資訊,如果使用者僅填寫了部分資訊,電商平臺採集到的資料就是不完整的。

2。資料的準確性

資料的準確性反映資料值和真實值之間的差距,即誤差,誤差越大,準確性越低。資料的準確性至關重要,只有基於準確的資料做出的決策才是真實可靠的。

3。資料的一致性

資料的一致性要求對於同一個指標,資料的數值要是一致的。

4。資料的規範性

資料的規範性要求資料被按照統一的格式儲存、被有效組織,並且能被高效地獲取。

5。資料的時效性

資料的時效性要求資料能夠被及時產出。

資料獲取效率的問題

由於前期資料基礎建設不充分,也沒有對數倉進行分層設計,維度表和事實邏輯表等主題資料都沒被搭建起來,資料獲取的成本極高,有的時候研發工程師甚至需要重複地去原始表中處理資料,既浪費人力,又影響效率。

TAG: 資料電商準確性質量採集