快消品貨源批發(fā)市場(chǎng)
快消品貨源分銷(xiāo)平臺(tái)

熱門(mén)搜索：包開(kāi)店心得淘點(diǎn)點(diǎn) 微信商品質(zhì)量問(wèn)題批發(fā) 嚴(yán)重違規(guī)

當(dāng)前位置: 貨源批發(fā)網(wǎng) » 網(wǎng)商學(xué)院 » 淘寶數(shù)據(jù)分析 » 基礎(chǔ)數(shù)據(jù) » 漫話(huà)阿里御膳房數(shù)據(jù)模型

漫話(huà)阿里御膳房數(shù)據(jù)模型

發(fā)布日期：2024-08-30 06:04:14 來(lái)源：電商聯(lián)盟作者：樂(lè)發(fā)網(wǎng) 瀏覽次數(shù)：29

當(dāng)大家聽(tīng)到“大數(shù)據(jù)”、“模型”等字眼的時(shí)候，是不是都會(huì)油然而生出一種崇敬之情？覺(jué)得玩大數(shù)據(jù)是一個(gè)高深莫測(cè)的事情，可望而不可即？如果是這樣的話(huà)，趕緊來(lái)閱讀本文吧。本文試圖告訴大家，模型并不是什么高深的玩意，它幾乎處處存在我們的生活，甚至我們每天都在“做模型”。

很多人覺(jué)得“模型”、“大數(shù)據(jù)”、“機(jī)器學(xué)習(xí)”這些字眼很高大很神秘，事實(shí)上，它跟我們生活中選水果差不了多少。本文用了幾千字，來(lái)試圖教會(huì)大家怎么選芒果。

一、模型的比喻

假如我要從一批芒果中，找出好吃的那個(gè)來(lái)。而我不能直接切開(kāi)芒果嘗嘗，所以我只能觀察芒果，能觀察到的量有顏色、表面的氣味、大小等等，這些就是我們能夠收集到的信息（特征）。

生活中還要很多這樣的例子，比如買(mǎi)火柴（可能年輕的城里人還沒(méi)見(jiàn)過(guò)火柴？），如何判斷一盒火柴的質(zhì)量？難道要每根火柴都劃劃，看看著不著火？顯然不行，我們最多也只能劃幾根，全部劃了，火柴也不成火柴了。當(dāng)然，我們還能看看火柴的樣子，聞聞火柴的氣味，這些動(dòng)作是可以接受的。

我們可能會(huì)發(fā)現(xiàn)，黃色的、大個(gè)的芒果會(huì)很甜，可是也發(fā)現(xiàn)，有些不怎么黃的、小個(gè)的也很甜。那么，顏色、氣味、體積這些特征，究竟分別占多少比例呢？如果我能夠找出這個(gè)比例，那么就找出了一個(gè)預(yù)測(cè)芒果好不好吃的方法。火柴的例子也一樣，我們可以劃幾根，看看哪些是能夠點(diǎn)著的，然后總結(jié)出一個(gè)不用劃也能預(yù)測(cè)能不能著火的方法。

模型做的就是這樣一個(gè)事情。我們先找出一批芒果（樣本），記錄它的特征（顏色、氣味、體積等），然后讓人嘗嘗，并且評(píng)價(jià)出哪個(gè)好吃，哪個(gè)不好吃。于是乎，我們就可以根據(jù)這批樣本，總結(jié)出顏色、氣味、體積各占多少比例。這個(gè)總結(jié)的過(guò)程，是機(jī)器自己在做的。

做完之后，我們就得到了一個(gè)預(yù)測(cè)芒果好不好吃的模型，這有點(diǎn)像黑箱子，以后把顏色、氣味、體積等數(shù)據(jù)代進(jìn)去，就可以算出好吃的概率。

二、模型的意義

從以上的比喻，可以看出模型最重要的意義，是解決了兩個(gè)問(wèn)題：

1.“一刀切”

“一刀切”應(yīng)該是讓我們很痛心疾首的做法，像在中學(xué)，老師不問(wèn)三七二十一就給我們來(lái)個(gè)差評(píng)，這便是典型的“一刀切”了。“一刀切”的做法具有一定的準(zhǔn)確率，但并非所有問(wèn)題都可以“一刀切”解決，相反，“一刀切”往往還把“優(yōu)良品種”給切錯(cuò)了！

比如我要在班上找出成績(jī)好的學(xué)生好，我們自然會(huì)想到學(xué)習(xí)成績(jī)跟花在學(xué)習(xí)上的時(shí)間成正比，所以我們認(rèn)為“每天學(xué)習(xí)時(shí)間大于5小時(shí)”就是成績(jī)好的人。這就是“一刀切”的做法。可是明明就有些人，天資聰穎，或者學(xué)習(xí)方法效率高，他每天花一個(gè)小時(shí)，成績(jī)就很優(yōu)秀。這樣的人，就被我們“切死”了，而且顯然，切死的還是優(yōu)良品種。

2.自動(dòng)學(xué)習(xí)

還是從芒果的例子出發(fā)。如果我們憑借“多年來(lái)的經(jīng)驗(yàn)”，就算不用模型，也摸索出了一套判斷好吃芒果的方法。可能此時(shí)人們就會(huì)說(shuō)“你們的模型有什么了不起，我們自己就可以做得很好。”可是，假如我現(xiàn)在不想吃芒果了，我想吃橘子，我想吃葡萄，那么我們又怎么預(yù)測(cè)橘子、葡萄的好吃程度呢？我們總不能等很多年以后，再來(lái)積累荔枝、蘋(píng)果的“多年經(jīng)驗(yàn)”吧？耗時(shí)尚且不說(shuō)，也耗費(fèi)人力。

當(dāng)然，可能別人有橘子、葡萄的相關(guān)經(jīng)驗(yàn)，我們可以向他們請(qǐng)教。但是請(qǐng)教是有成本的，大家想想到處肆行的各種收費(fèi)培訓(xùn)活動(dòng)就是了。

模型正好解決了這個(gè)問(wèn)題，它允許我們從一批已經(jīng)有的樣本出發(fā)（不管是芒果、蘋(píng)果還是荔枝），自動(dòng)地、機(jī)器地“總結(jié)”（這個(gè)過(guò)程稱(chēng)為學(xué)習(xí)）出一套判斷方法來(lái)。由于學(xué)習(xí)都是機(jī)器在做，對(duì)于我們就省事省力了。我們只需要泡杯茶，坐等模型結(jié)果出來(lái)，再看看模型結(jié)果好不好就行了。這總比我們自己去學(xué)習(xí)、總結(jié)，然后再判斷自己的學(xué)習(xí)效果更好吧？

三、模型的做法

要做好一個(gè)模型，通常來(lái)說(shuō)有以下步驟：

1.準(zhǔn)備樣本

樣本就是我們用來(lái)學(xué)習(xí)的那一批“芒果”樣本。事實(shí)上，模型的建立過(guò)程跟人類(lèi)的學(xué)習(xí)過(guò)程是很類(lèi)似的。如果交給人類(lèi)來(lái)做，我們肯定會(huì)先拿來(lái)一部分芒果，然后記錄它們的顏色、大小、氣味等特征，然后把它們都切開(kāi)嘗嘗，看看哪個(gè)酸哪個(gè)甜，最后總結(jié)出規(guī)律來(lái)。

對(duì)于模型來(lái)說(shuō)，模型代替了人類(lèi)總結(jié)的過(guò)程，也就是最后一步。前面的準(zhǔn)備過(guò)程，還是需要我們來(lái)完成的。我們要自己嘗一批芒果，記錄那批芒果的信息，然后把這些信息都輸入模型中，模型就能夠自動(dòng)學(xué)習(xí)好，學(xué)習(xí)好之后，就能夠用這個(gè)模型來(lái)預(yù)測(cè)新的芒果味道了。

準(zhǔn)備樣本，意思是要準(zhǔn)備好的樣本和壞的樣本，換句話(huà)說(shuō)，你要找一批好吃的芒果來(lái)，記錄它的特征，你也要找一批不好吃的芒果來(lái)，記錄它的特征，然后把這些信息都告訴模型，模型才能自動(dòng)學(xué)習(xí)。在這個(gè)過(guò)程中，人類(lèi)做的是記錄員的角色。

2.準(zhǔn)備特征

特征就是和判斷結(jié)果有關(guān)的一些變量，是模型預(yù)測(cè)的基礎(chǔ)。

簡(jiǎn)單來(lái)說(shuō)，特征就是芒果的好吃與否跟什么有關(guān)的“什么”，如果我們覺(jué)得芒果的好吃程度跟芒果的大小、顏色、氣味有關(guān)，那么“大小”、“顏色”、“氣味”就是模型的特征，當(dāng)然，前提是把這些信息數(shù)量化。

特征有好壞之分，好的特征可以幫助模型作出正確的預(yù)測(cè)，而壞的特征至少無(wú)益于預(yù)測(cè)。比如，在哪棵樹(shù)摘的芒果、在星期幾摘的芒果，這大概都不是什么好的特征的，也就是說(shuō)這些信息通常來(lái)說(shuō)并不能幫助我們判斷芒果的好吃程度。（注意是“通常來(lái)說(shuō)”，并不是絕對(duì)的。也許A樹(shù)摘下來(lái)的芒果確實(shí)都比B樹(shù)的好吃也說(shuō)不定。）

好的特征對(duì)模型是至關(guān)重要的，可以說(shuō)，尋找好的特征（不管是人工尋找還是機(jī)器尋找），是模型中最重要的部分。一個(gè)好的數(shù)據(jù)研究員在建模的過(guò)程中，應(yīng)當(dāng)把主要的精力放在特征的選取上；然而，現(xiàn)在多數(shù)研究員往往走向了誤區(qū)，他們把大量的精力放到了模型上面（也就是第3步）。

3.準(zhǔn)備模型

準(zhǔn)備模型其實(shí)就是選擇模型，也就是用什么模型來(lái)學(xué)習(xí)。這好比人有不同的學(xué)習(xí)方法、學(xué)習(xí)經(jīng)驗(yàn)，究竟選取怎么樣的方法去學(xué)習(xí)一樣。

在真正的機(jī)器學(xué)習(xí)領(lǐng)域中，模型有相當(dāng)多了，比如分為線(xiàn)性模型和非線(xiàn)性模型，線(xiàn)性模型有邏輯回歸、SVM等，非線(xiàn)性模型有隨機(jī)森林、GBDT、神經(jīng)網(wǎng)絡(luò)等等。對(duì)于模型來(lái)說(shuō)，一般有以下幾點(diǎn)需要清楚：

（1）模型不是最重要的

事實(shí)上，建模過(guò)程中最重要的一塊是特征的選取，選取了正確的特征，模型之間的效果相差不會(huì)太大，因此，不要把大部分精力放在模型的選取上；

（2）防止過(guò)擬合

過(guò)擬合是一個(gè)比較難以察覺(jué)的現(xiàn)象，總的來(lái)說(shuō)，就是得出來(lái)的模型，在樣本內(nèi)的測(cè)試效果表現(xiàn)非常好，而在實(shí)際應(yīng)用中卻一塌糊涂。防止過(guò)擬合的通常方法是設(shè)置一定的正則系數(shù)（對(duì)于邏輯回歸，一般是0.01），或者設(shè)置較小的深度（決策樹(shù)相關(guān)的模型）。

（3）盡量用線(xiàn)性模型

非線(xiàn)性模型，如GBDT一般效果比較好，但是也更加容易過(guò)擬合，因此，如果非線(xiàn)性模型的效果不是比線(xiàn)性模型好很多的話(huà)，盡量用線(xiàn)性模型，因?yàn)檫@樣的模型穩(wěn)定性更好。這樣的理念實(shí)際上符合了這么一個(gè)奧卡姆剃刀定律：“如無(wú)必要，勿增實(shí)體。”

四、最后的最后

當(dāng)然，不論怎樣都需要強(qiáng)調(diào)：模型是有用的，但是模型不是萬(wàn)能的，也不是最重要的。不要迷信模型，而喪失了我們自己的主觀能動(dòng)性。模型可以說(shuō)是一件藝術(shù)品，前提是——你是一位藝術(shù)家。

樂(lè)發(fā)網(wǎng)超市批發(fā)網(wǎng)提供超市貨源信息,超市采購(gòu)進(jìn)貨渠道。超市進(jìn)貨網(wǎng)提供成都食品批發(fā),日用百貨批發(fā)信息、微信淘寶網(wǎng)店超市采購(gòu)信息和超市加盟信息.打造國(guó)內(nèi)超市采購(gòu)商與批發(fā)市場(chǎng)供應(yīng)廠商搭建網(wǎng)上批發(fā)市場(chǎng)平臺(tái),是全國(guó)批發(fā)市場(chǎng)行業(yè)中電子商務(wù)權(quán)威性網(wǎng)站。

本文內(nèi)容整合網(wǎng)站：百度百科、知乎、淘寶平臺(tái)規(guī)則

本文來(lái)源：漫話(huà)阿里御膳房數(shù)據(jù)模型

下一篇：編輯淘寶商品標(biāo)題的關(guān)鍵技巧
上一篇：手把手教會(huì)你店鋪轉(zhuǎn)化率的飆升

分享與收藏： 網(wǎng)商學(xué)院搜索告訴好友關(guān)閉窗口打印本文本文關(guān)鍵字：

為您推薦更多相關(guān)文章

• 雙十一活動(dòng)流量分析	• 學(xué)不會(huì)分析市場(chǎng)，談什么做電商
• 數(shù)據(jù)分析告訴你同行到底在做些啥？	• 數(shù)據(jù)分析5種入門(mén)方法，你get了么？
• 手動(dòng)處理數(shù)據(jù)？OUT！簡(jiǎn)單函數(shù)讓效率提升N倍	• 一張報(bào)表奮斗N晚？數(shù)據(jù)分析對(duì)它說(shuō)“NO”
• 數(shù)據(jù)作戰(zhàn)室－實(shí)力商家尊享，引領(lǐng)電商潮流！	• 做電商你不得不知的幾個(gè)數(shù)據(jù)分析法
• 淘寶賣(mài)家你不得不掌握的那些“數(shù)據(jù)”	• 大數(shù)據(jù)幫你尋找你的“小鮮肉”

做電商你不得不知的幾	學(xué)不會(huì)分析市場(chǎng)，談什
逐一分析，讓店鋪流量	從《武媚娘傳奇》論店

国产精品91av-国产精品91视频-国产精品91在线-国产精品91在线播放-欧美人与禽zoz0性伦交-欧美人与禽zoz0性伦交免费看

漫話(huà)阿里御膳房數(shù)據(jù)模型