當(dāng)大家聽(tīng)到“大數(shù)據(jù)”、“模型”等字眼的時(shí)候,是不是都會(huì)油然而生出一種崇敬之情?覺(jué)得玩大數(shù)據(jù)是一個(gè)高深莫測(cè)的事情,可望而不可即?如果是這樣的話(huà),趕緊來(lái)閱讀本文吧。本文試圖告訴大家,模型并不是什么高深的玩意,它幾乎處處存在我們的生活,甚至我們每天都在“做模型”。
很多人覺(jué)得“模型”、“大數(shù)據(jù)”、“機(jī)器學(xué)習(xí)”這些字眼很高大很神秘,事實(shí)上,它跟我們生活中選水果差不了多少。本文用了幾千字,來(lái)試圖教會(huì)大家怎么選芒果。
一、模型的比喻
假如我要從一批芒果中,找出好吃的那個(gè)來(lái)。而我不能直接切開(kāi)芒果嘗嘗,所以我只能觀察芒果,能觀察到的量有顏色、表面的氣味、大小等等,這些就是我們能夠收集到的信息(特征)。
生活中還要很多這樣的例子,比如買(mǎi)火柴(可能年輕的城里人還沒(méi)見(jiàn)過(guò)火柴?),如何判斷一盒火柴的質(zhì)量?難道要每根火柴都劃劃,看看著不著火?顯然不行,我們最多也只能劃幾根,全部劃了,火柴也不成火柴了。當(dāng)然,我們還能看看火柴的樣子,聞聞火柴的氣味,這些動(dòng)作是可以接受的。
我們可能會(huì)發(fā)現(xiàn),黃色的、大個(gè)的芒果會(huì)很甜,可是也發(fā)現(xiàn),有些不怎么黃的、小個(gè)的也很甜。那么,顏色、氣味、體積這些特征,究竟分別占多少比例呢?如果我能夠找出這個(gè)比例,那么就找出了一個(gè)預(yù)測(cè)芒果好不好吃的方法。火柴的例子也一樣,我們可以劃幾根,看看哪些是能夠點(diǎn)著的,然后總結(jié)出一個(gè)不用劃也能預(yù)測(cè)能不能著火的方法。
模型做的就是這樣一個(gè)事情。我們先找出一批芒果(樣本),記錄它的特征(顏色、氣味、體積等),然后讓人嘗嘗,并且評(píng)價(jià)出哪個(gè)好吃,哪個(gè)不好吃。于是乎,我們就可以根據(jù)這批樣本,總結(jié)出顏色、氣味、體積各占多少比例。這個(gè)總結(jié)的過(guò)程,是機(jī)器自己在做的。
做完之后,我們就得到了一個(gè)預(yù)測(cè)芒果好不好吃的模型,這有點(diǎn)像黑箱子,以后把顏色、氣味、體積等數(shù)據(jù)代進(jìn)去,就可以算出好吃的概率。
二、模型的意義
從以上的比喻,可以看出模型最重要的意義,是解決了兩個(gè)問(wèn)題:
1.“一刀切”
“一刀切”應(yīng)該是讓我們很痛心疾首的做法,像在中學(xué),老師不問(wèn)三七二十一就給我們來(lái)個(gè)差評(píng),這便是典型的“一刀切”了。“一刀切”的做法具有一定的準(zhǔn)確率,但并非所有問(wèn)題都可以“一刀切”解決,相反,“一刀切”往往還把“優(yōu)良品種”給切錯(cuò)了!
比如我要在班上找出成績(jī)好的學(xué)生好,我們自然會(huì)想到學(xué)習(xí)成績(jī)跟花在學(xué)習(xí)上的時(shí)間成正比,所以我們認(rèn)為“每天學(xué)習(xí)時(shí)間大于5小時(shí)”就是成績(jī)好的人。這就是“一刀切”的做法。可是明明就有些人,天資聰穎,或者學(xué)習(xí)方法效率高,他每天花一個(gè)小時(shí),成績(jī)就很優(yōu)秀。這樣的人,就被我們“切死”了,而且顯然,切死的還是優(yōu)良品種。
2.自動(dòng)學(xué)習(xí)
還是從芒果的例子出發(fā)。如果我們憑借“多年來(lái)的經(jīng)驗(yàn)”,就算不用模型,也摸索出了一套判斷好吃芒果的方法。可能此時(shí)人們就會(huì)說(shuō)“你們的模型有什么了不起,我們自己就可以做得很好。”可是,假如我現(xiàn)在不想吃芒果了,我想吃橘子,我想吃葡萄,那么我們又怎么預(yù)測(cè)橘子、葡萄的好吃程度呢?我們總不能等很多年以后,再來(lái)積累荔枝、蘋(píng)果的“多年經(jīng)驗(yàn)”吧?耗時(shí)尚且不說(shuō),也耗費(fèi)人力。
當(dāng)然,可能別人有橘子、葡萄的相關(guān)經(jīng)驗(yàn),我們可以向他們請(qǐng)教。但是請(qǐng)教是有成本的,大家想想到處肆行的各種收費(fèi)培訓(xùn)活動(dòng)就是了。
模型正好解決了這個(gè)問(wèn)題,它允許我們從一批已經(jīng)有的樣本出發(fā)(不管是芒果、蘋(píng)果還是荔枝),自動(dòng)地、機(jī)器地“總結(jié)”(這個(gè)過(guò)程稱(chēng)為學(xué)習(xí))出一套判斷方法來(lái)。由于學(xué)習(xí)都是機(jī)器在做,對(duì)于我們就省事省力了。我們只需要泡杯茶,坐等模型結(jié)果出來(lái),再看看模型結(jié)果好不好就行了。這總比我們自己去學(xué)習(xí)、總結(jié),然后再判斷自己的學(xué)習(xí)效果更好吧?
三、模型的做法
要做好一個(gè)模型,通常來(lái)說(shuō)有以下步驟:
1.準(zhǔn)備樣本
樣本就是我們用來(lái)學(xué)習(xí)的那一批“芒果”樣本。事實(shí)上,模型的建立過(guò)程跟人類(lèi)的學(xué)習(xí)過(guò)程是很類(lèi)似的。如果交給人類(lèi)來(lái)做,我們肯定會(huì)先拿來(lái)一部分芒果,然后記錄它們的顏色、大小、氣味等特征,然后把它們都切開(kāi)嘗嘗,看看哪個(gè)酸哪個(gè)甜,最后總結(jié)出規(guī)律來(lái)。
對(duì)于模型來(lái)說(shuō),模型代替了人類(lèi)總結(jié)的過(guò)程,也就是最后一步。前面的準(zhǔn)備過(guò)程,還是需要我們來(lái)完成的。我們要自己嘗一批芒果,記錄那批芒果的信息,然后把這些信息都輸入模型中,模型就能夠自動(dòng)學(xué)習(xí)好,學(xué)習(xí)好之后,就能夠用這個(gè)模型來(lái)預(yù)測(cè)新的芒果味道了。
準(zhǔn)備樣本,意思是要準(zhǔn)備好的樣本和壞的樣本,換句話(huà)說(shuō),你要找一批好吃的芒果來(lái),記錄它的特征,你也要找一批不好吃的芒果來(lái),記錄它的特征,然后把這些信息都告訴模型,模型才能自動(dòng)學(xué)習(xí)。在這個(gè)過(guò)程中,人類(lèi)做的是記錄員的角色。
2.準(zhǔn)備特征
特征就是和判斷結(jié)果有關(guān)的一些變量,是模型預(yù)測(cè)的基礎(chǔ)。
簡(jiǎn)單來(lái)說(shuō),特征就是芒果的好吃與否跟什么有關(guān)的“什么”,如果我們覺(jué)得芒果的好吃程度跟芒果的大小、顏色、氣味有關(guān),那么“大小”、“顏色”、“氣味”就是模型的特征,當(dāng)然,前提是把這些信息數(shù)量化。
特征有好壞之分,好的特征可以幫助模型作出正確的預(yù)測(cè),而壞的特征至少無(wú)益于預(yù)測(cè)。比如,在哪棵樹(shù)摘的芒果、在星期幾摘的芒果,這大概都不是什么好的特征的,也就是說(shuō)這些信息通常來(lái)說(shuō)并不能幫助我們判斷芒果的好吃程度。(注意是“通常來(lái)說(shuō)”,并不是絕對(duì)的。也許A樹(shù)摘下來(lái)的芒果確實(shí)都比B樹(shù)的好吃也說(shuō)不定。)
好的特征對(duì)模型是至關(guān)重要的,可以說(shuō),尋找好的特征(不管是人工尋找還是機(jī)器尋找),是模型中最重要的部分。一個(gè)好的數(shù)據(jù)研究員在建模的過(guò)程中,應(yīng)當(dāng)把主要的精力放在特征的選取上;然而,現(xiàn)在多數(shù)研究員往往走向了誤區(qū),他們把大量的精力放到了模型上面(也就是第3步)。
3.準(zhǔn)備模型
準(zhǔn)備模型其實(shí)就是選擇模型,也就是用什么模型來(lái)學(xué)習(xí)。這好比人有不同的學(xué)習(xí)方法、學(xué)習(xí)經(jīng)驗(yàn),究竟選取怎么樣的方法去學(xué)習(xí)一樣。
在真正的機(jī)器學(xué)習(xí)領(lǐng)域中,模型有相當(dāng)多了,比如分為線(xiàn)性模型和非線(xiàn)性模型,線(xiàn)性模型有邏輯回歸、SVM等,非線(xiàn)性模型有隨機(jī)森林、GBDT、神經(jīng)網(wǎng)絡(luò)等等。對(duì)于模型來(lái)說(shuō),一般有以下幾點(diǎn)需要清楚:
(1)模型不是最重要的
事實(shí)上,建模過(guò)程中最重要的一塊是特征的選取,選取了正確的特征,模型之間的效果相差不會(huì)太大,因此,不要把大部分精力放在模型的選取上;
(2)防止過(guò)擬合
過(guò)擬合是一個(gè)比較難以察覺(jué)的現(xiàn)象,總的來(lái)說(shuō),就是得出來(lái)的模型,在樣本內(nèi)的測(cè)試效果表現(xiàn)非常好,而在實(shí)際應(yīng)用中卻一塌糊涂。防止過(guò)擬合的通常方法是設(shè)置一定的正則系數(shù)(對(duì)于邏輯回歸,一般是0.01),或者設(shè)置較小的深度(決策樹(shù)相關(guān)的模型)。
(3)盡量用線(xiàn)性模型
非線(xiàn)性模型,如GBDT一般效果比較好,但是也更加容易過(guò)擬合,因此,如果非線(xiàn)性模型的效果不是比線(xiàn)性模型好很多的話(huà),盡量用線(xiàn)性模型,因?yàn)檫@樣的模型穩(wěn)定性更好。這樣的理念實(shí)際上符合了這么一個(gè)奧卡姆剃刀定律:“如無(wú)必要,勿增實(shí)體。”
四、最后的最后
當(dāng)然,不論怎樣都需要強(qiáng)調(diào):模型是有用的,但是模型不是萬(wàn)能的,也不是最重要的。不要迷信模型,而喪失了我們自己的主觀能動(dòng)性。模型可以說(shuō)是一件藝術(shù)品,前提是——你是一位藝術(shù)家。
樂(lè)發(fā)網(wǎng)超市批發(fā)網(wǎng)提供超市貨源信息,超市采購(gòu)進(jìn)貨渠道。超市進(jìn)貨網(wǎng)提供成都食品批發(fā),日用百貨批發(fā)信息、微信淘寶網(wǎng)店超市采購(gòu)信息和超市加盟信息.打造國(guó)內(nèi)超市采購(gòu)商與批發(fā)市場(chǎng)供應(yīng)廠商搭建網(wǎng)上批發(fā)市場(chǎng)平臺(tái),是全國(guó)批發(fā)市場(chǎng)行業(yè)中電子商務(wù)權(quán)威性網(wǎng)站。
本文內(nèi)容整合網(wǎng)站:百度百科、知乎、淘寶平臺(tái)規(guī)則
本文來(lái)源: 漫話(huà)阿里御膳房數(shù)據(jù)模型