機器學習,資料探勘在研究生階段大概要學些什麼?

時間 2021-05-06 21:26:32

1樓:星辰大海

其他回答都已經非常全面了,再補充一點,常用、通用的人工神經網路,肯定是建議掌握的,包括

1、全連線神經網路

全連線神經網路通常被稱作多層感知機,其典型結構如下圖所示:

全連線神經網路

2、卷積神經網路

卷積神經網路是計算機視覺領域最常用的影象識別方法,主要特色部分是卷積層和池化層。

卷積神經網路

3、殘差收縮網路

當資料面臨雜訊干擾時,殘差收縮網路[1]

[2]能夠通過自適應軟閾值化,減輕雜訊的影響。

(面向強噪、高冗餘資料的)殘差收縮網路

2樓:楊格蒙

雖然一年裡我們有11門課之多但個人覺得六門課非常重要Probability

Statistical inferenceRegression model

Big data

Machine learning

Information retrieval弊校在IR領域一直很強感覺bd和ml兩門課學校的發展都是建立的ir的基礎上三者相輔相成缺一不可

3樓:道道

課程組成:

1. Pattern Discovery in Data Mining

2. Text Retrieval and Search Engines

3. Cluster Analysis in Data Mining4. Text Mining and Analytics5.

Data Visualization如果非要讓我選的話,Data Visualization可能不是必須的,但是非常有趣而且實用,是很有益處的「bonus」。另外如果統計的基礎知識不太記得清楚的話很推薦去上一門基礎統計科或者refresh一下統計知識…因為對理解這些課程的幫助很大。

4樓:有熊出沒

我喜歡題主這個問題,知友們對具體知識的回答很詳細了,我換個角度切入下。首先,資料探勘不一定要有後期的machine learning, SQL會了以後,很多基礎的,有實際意義的東西就會通過資料整合顯示出來,而機器學習對於資料量並沒有太大的要求,對於資料的質的要求會更高,一旦training data biased, 整個model會被嚴重影響。很多情況下(實際商業)big data會止於淺層挖掘,只有部分有意義的資料會最終被用來learn.

其次,如果題主讀的是統計碩士,大部分學校的focus是expand你對機器學習的認識,介紹很多已經成熟的模型以及應用。但個人覺得machine learning 是乙個非常 programming intensive的方向,所以應該學校會叫你學兩三門程式語言。如果題主讀的是博士,那你的研究方向可能最終會落腳於某個演算法的提公升或開發,而且對於成熟的演算法,要有比較深刻的理解和認識,deep learning貌似是目前統計方面比較熱的乙個方向,當然,至於語言,R基本是必備的。

書籍的話,Berkeley和Stanford都會用the elements of statistical learning,這本書連同其完整的資料練習相當有意思,可深可淺,值得用心去讀。

5樓:

樓主問的其實是兩個相關(很多人分不清)但其實差不少的領域。現在排名第一的 @安岩 在推薦閱讀上回答非常詳盡,就不在這個方面多廢話了,只是簡單按照自己的經驗說一下這兩個的區別和聯絡:

機器學習的終極目標是讓計算機完成一些被我們認為是「智慧型」的工作,一開始的研究是從邏輯學方向入手的,之後幾十年一直是統計機器學習的天下(說是「統計」,但其實更多是概率方向的知識),而近幾年沉睡很久的神經網路也在得到更多甚至說是狂熱的重視(神經網路可以認為是統計模型,但相比傳統統計機器學習(statistical/probabilistic)而言,它更多時候更接近乙個確定性(deterministic)模型)。

另一方面,資料探勘更側重於實際應用,而且也和統計學(注意,這和概率有很大的區別)的關聯更加顯著。傳統的應用包括購物籃分析(常購買商品、常共同購買商品),和比較新的一些社交網路、UGC分析(User Generated Contents, 使用者生成的內容)等等。

乙個簡單的資料探勘和機器學習的區分就是,資料探勘並不那麼關心演算法的細節,而相對更重視結果的解釋及其統計意義;而相反,機器學習似乎更在乎演算法的設計、優化,在分類、聚類、或者一些既定問題上的效果,而較少關心統計意義方面的考量。具體來說,乙個資料探勘專家可能會用線性回歸甚至關聯分析,這些被機器學習學者認為是上世紀初產物的模型完成一些非常有趣的實際工作,並得到確定的統計意義(比如95%置信區間、某個事件是否具有「突發」統計意義等),也就是說這些結果最終還是服務於人,需要人去理解;而機器學習學者會盡量設計模型來自動別難過完成相對「智慧型、複雜」的任務,比如影象識別、語音識別、自然語言理解等,提高演算法在這些問題上的準確性,但通常會被統計學家吐槽很多模型的效果提公升其實統計意義不明。

最後簡單總結一些兩者分別(有些其實界限不是很清晰了,我只是列在了被研究得更多的那邊)和公共的搜尋詞:

資料探勘(不熟,輕拍):Data Analysis, (Social) Network Analysis, UGC Analysis, Market Segmentation, Recommendation/Ads Systems

機器學習:Computer Vision, Speech Recognition, Natural Language Processing/Understanding, Pattern Recognition, Statistical Learning Theory (Convergence, Error Analysis), Probabilistic Graphical Models, Neural Networks

公共:Linear Algebra, Parallelization/Large-Scale/Distributed Computation, Optimization, Probability/Statistics

6樓:李文哲

想學所有的知識永遠也學不完, 最重要的是專一。 與其翻閱不同的教材,我覺得還不如去嘗試去解決實際問題,在這個過程當中根據需要適當的補充知識(假設你已經大概了解了機器學習的領域) 去kaggle嘗試一下實際的問題吧, 之後你自己就會有方向感了, http://www.

機器學習 資料探勘方向的計算機研究生該如何整體提公升自己的技術水平?

陳阿榮 志向遠大,目標明確,成績可度量 然後 多學 資訊時代,慕課,wiki,問答,書籍,途徑非常之多 微博上很多機器學習專家也可以關注關注 現在的條件可以選擇頂級的專家和內容來學習 多用 從戰鬥中學習戰鬥,總是最快和最有成效的,推薦kaggle。像kaggle這種資源的話直接利用起來,多練一練,互...

地質研究生轉行資料探勘,很焦慮?

歐陽 還在學校的話轉行真的是只要付出時間和精力完全可以,因為不像工作了之後壓力那麼大,機會成本那麼高。轉資料探勘現在網上資料超級多的,隨便一搜就是,題主也可以和之前的同學有幹這個的,或者相關專業的多交流一下。其實,看題主已經開始做起來了,只不過是在做的過程中會不斷懷疑自我,這種心態我十分理解,因為我...

作為資料探勘研究生需要補充哪些數學知識?

資料探勘與分析 概念與演算法 穆罕默德 扎基 Mohammed J.Zaki 小華格納 梅拉 Wagner Meira Jr.吳誠堃 摘要書評試讀 圖書 數學基礎雖然再多也不叫多,但是與DM直接相關的一定要認真打好基礎。概率學。基礎中的基礎。數理統計學 統計機器學習 vapnik,Elements ...