資料分析會騙人麼？

1樓：海刻

資料展現出的是相關性而不是因果關係，是概率不是充分條件。資料就是資料，只不過人會有意識地關注對自己心中已有結論更有利的資料。

2樓：黃揚名

個人覺得統計的精髓在於如何從資料中提煉資訊，從而得出結論。記得有乙個導師告訴我們，模型對了，市場對了，是最好的結果；但是我們發現模型的結果和市場相悖的時候，就陷入乙個困境：究竟是模型錯了，還是市場錯了。

3樓：嘉慧Lincoln

之前回答過這類問題：「資料會說謊」的真實例子有哪些？

Numbers don't lie. 資料不會說謊，使用資料的人才會說謊；有些人是無意，有些人是蓄意。

答案就不複製過來了。

4樓：

肯定會，這就得提統計了，學統計就教了怎麼選取資料，資料大小，資料質量，等等，再加上比如條件，公式等等運用，帶來結果有時可以天壤之別。所以做大資料的都知道，資料始終是參考，最終還得有人去檢驗

5樓：肖三毛

所謂資料分析，就是用一些工具和模型深度挖掘一些非明顯的模式，而世界之大，假相關不可勝數，當然會出現一些「虛假」的關聯。所謂資料分析，則是增大了假關聯被「挖掘」到的可能性。

只要足夠聰明的人，都可以在一堆資料中發現他們特定得相關性。只要可以確定變數，演算法，就會發現任何資料組都可以被建立成模型。

但是計算機非人，這些建立起來得資料模型是否能被運用到現實世界中，還要打上乙個大大的問號。對於科學家來講，任何被建立起來得模型，都是有演算法依據的，都是正確的，但也是概率統計層面上的。當模型建好之後，不符合的資料就變成了例外或無效資料。

人類天生就傾向於看見不存在的模式。及時沒有欺騙的意圖，那些被忽略「例外」的資料，就會變成謊言。

6樓：哥德巴赫的猜想

看過一本書《統計陷阱》，裡面講了資料分析說謊的技巧和解決的方法。

1. 有偏的樣本

書中舉了乙個例子：「1924級的耶魯畢業生平均年收入有25111美元。」

之後書中分析這個數字的產生是由於抽樣遺漏了收入較低的人群，甚至被調查的畢業生也沒有說真話。對樣本研究後得到的結論不會好於樣本本身。當資料經過層層統計處理，最後簡化成乙個小數形式的平均數時，結論似乎被確定的光環所籠罩，但只要再仔細留心整個抽樣過程，這個光環就會破滅。

2. 精心挑選的平均數

這裡的意思是對於平均數，你看到的有可能是均值、中位數或眾數。當沒有具體告訴你是哪一種平均數時，其結果也是會誤導人的。比如上面收入例子的平均年收入也有「精心挑選」的可能。

3. 沒有披露的資料

指的是使用小樣本來得出結論。比如拋10次硬幣，得到8次正面，就得出結論，這個硬幣有80%的概率是正面。但如果你拋100次，基本上正面的概率會在50%。

至於用多大的樣本來實驗，在統計學中是用顯著性檢驗的方法來評估實驗的好壞。

4. 毫無意義的工作

書中舉了乙個智商的例子。這樣的表達「智商的正常值是100」，類似的結論都是錯誤的。對於這種抽樣結果應該注意的是範圍，而不是乙個準確的值。

5. 驚人的統計圖形

其實就是對於同樣的數字，採用不同的座標範圍等方法來產生不同的圖形，對人視覺效果的衝擊也是不同的。

6. 平面圖形

直接看圖：

7. 不相匹配的資料

看乙個表達就明白了：「去年飛機失事造成的人員死亡比2023年多」，這句話是否意味著現在乘飛機比過去危險？其實不是，因為現在選擇飛機出行的人比過去多太多了。

8. 相關關係與因果關係

比如有人探求是否抽菸者的大學成績比不吸菸的差，資料分析的結果的確是這樣。這個時候就來了乙個「合理」的推斷：抽菸使人成績差。

顯然這是不對的，如果相反說呢，也許是低分使學生變得愛抽菸。

對於以上的問題，作者最後提出了5個問題來識別謊言，其實這也是做好資料分析必須要注意的5點：

1. 誰說的？

這指的就是尋找偏差，核實資料來源。

2. 他是如何知道的？

注意樣本的有偏，是由於選擇不當，還是由刻意挑選有利的樣本造成的，資料量是否足夠大能支撐結論的準確性。

3. 遺漏了什麼？

即缺失值的處理以及是否經過置信度檢驗。

4. 是否有人偷換了概念？

比如一些文字遊戲，相關與因果互換等等。

5. 這個資料有意義嗎？

結合領域知識來判斷資料、資料是否有意義。

7樓：Alexi

我在乙個服裝店上班，我們每月會有乙個銷量排行榜報告給老闆，老闆會根據這個個報告再去進貨。但是有乙個問題是老闆每次買皮帶都只買九十，九十五，一百厘公尺的，我們好多次向老闆說很多顧客現在都有啤酒肚，需要一百一十的長度才可以，但每次老闆進貨還是沒有一百一十的長度，我們都很無奈。終於有一次受不了了，我們就一起問老闆，為什麼一直不買一百一十的長度，很多顧客都來問啊！

然後老闆一句話，我們都笑噴了：每次你們的報告上面銷量最好是九十和九十五啊！

8樓：兵馬俑 Hu

首先統計原本研究的就是可能性的問題，其次資料分析是需要相關行業的一些知識的，離開了背景離開了行業的內在邏輯，什麼樣的分析結果都有可能得到。資料分析只是工具。

9樓：雅俗共賞

會啊，資料分析可以自己玩花樣的，乙個圖表基準不一樣整個表達的資訊就變了，不同的方法可以得出不同結論，切入點這些都是可以往花樣，比如三人工資，2000.3000.20000然後我告訴你這些人的平均工資8000你覺得靠譜嗎

10樓：裡芃芃

必須會，不過看你怎麼看待這個問題。

首先你要知道資料怎麼來？收集。廢話。

但是真正過程中可不是這麼簡單。收集一堆資料誰都會，可是如何進行資料的清理以及篩選呢？這裡邊主觀性就太強了。

以GDP計算為例子，重複計算被很多人作為詬病的理由。那怎麼甄別重複的資料？也許除了主觀因素，還有技術達不到的原因。

收集來資料以後就要進行分析了。以視覺化分析為例，以什麼樣的圖展現在你面前，效果完全不同。同時，資料整合過程中，將哪幾個聚為一類，也完全涉及很多的主觀因素。

所以如此多的主觀因素影響下，想得到客觀事實真的很難不過還是開頭那句話，看你要幹啥了。大多數情況下資料是為了證實自己的觀點，如此之下，帶有可接受的個人主義思維色彩，自然是可以理解得了。

11樓：張偉棋

會。這種情況很多。

Mark Twain曾經說過Figures never lie but liars

sure can figure。但實際上人們很容易被資料迷惑。舉幾個例子。

偶然相關關係。乙個經常聽我老師提起的例子是拿南開大學大中路上樹的高度和每年新生的身高作相關性分析，你會發現兩者相關性非常強，可在仔細想一想，兩者又是怎麼牽扯上關係的呢。我們無法從這裡面分析出因果關係，僅僅是相關關係而已，這種相關關係很脆弱，沒有因果關係，我們不知它怎麼產生，也就意味著我們不知道它何時消失。

統計工具有時無法涵蓋使用者的個人需求。假如你想進一所高校讀研究生，你會看到乙份或者多份的高校排名，這個時候你的決定可能很大程度上被這個排名左右，但是這個排名根本沒有把你的學習目標，個人喜好等個人因素考慮進來。這樣你就很難定位最適合你的學校。

統計學上的顯著性差異和實際差異容易被混淆。在我看來「顯著性」這個統計術語是被濫用了。當樣本符合假設前提時，it's ok.

但很多時候這些前提並非嚴格符合，而是我們的假設。例如我們比較北京和南京的學生身高差異，選取隨機樣本做乙個兩樣本t檢驗，其中樣本正態的前提通常只是假設的，在樣本量較少的情況下，我們很有可能會得到兩地學生身高是有顯著性差異的。但問題是我們無法確定到底多大的樣本量才足夠精確，因此統計學上的顯著性差異應該表示樣本量足夠多可以清晰地反應出差異性，非顯著性則應表示樣本量不足以反映實際的差異。

不過很多時候「顯著性"這三個字太過誘人，容易讓人做出錯誤的決定。

不要把統計當成數學。insight在資料分析中非常重要。

隨著統計方法和統計工具的增多，資料分析的準確性應該會提高。但我個人認為未來影響資料分析準確性最重要因素不是統計方法和統計工具，而是資料本身。

資料分析會騙人麼？

女生有做資料分析的麼？

資料分析屬於敞口型崗位麼？

學資料分析？

其他用戶還看了：