<thead id="xthz1"></thead>
            <form id="xthz1"></form>

                <sub id="xthz1"><meter id="xthz1"></meter></sub><thead id="xthz1"><meter id="xthz1"></meter></thead>

                <thead id="xthz1"><meter id="xthz1"></meter></thead>

                <th id="xthz1"></th>

                  <font id="xthz1"><meter id="xthz1"><i id="xthz1"></i></meter></font>

                          <nobr id="xthz1"><meter id="xthz1"></meter></nobr>

                          <th id="xthz1"><meter id="xthz1"></meter></th>

                          <nobr id="xthz1"></nobr>

                                  <nobr id="xthz1"><meter id="xthz1"><var id="xthz1"></var></meter></nobr>

                                  <th id="xthz1"></th>
                                  <thead id="xthz1"><meter id="xthz1"><b id="xthz1"></b></meter></thead>
                                  
                                  

                                      <pre id="xthz1"><noframes id="xthz1"><track id="xthz1"></track>

                                          <nobr id="xthz1"><meter id="xthz1"><var id="xthz1"></var></meter></nobr>

                                          <th id="xthz1"></th>

                                            <address id="xthz1"></address>

                                            <thead id="xthz1"><meter id="xthz1"></meter></thead>

                                                <video id="xthz1"><span id="xthz1"><nobr id="xthz1"></nobr></span></video>

                                                  <th id="xthz1"><meter id="xthz1"></meter></th>

                                                  <th id="xthz1"></th>

                                                    <th id="xthz1"></th><track id="xthz1"><meter id="xthz1"></meter></track>

                                                      <font id="xthz1"><meter id="xthz1"></meter></font><th id="xthz1"><meter id="xthz1"></meter></th>

                                                          <sub id="xthz1"><progress id="xthz1"></progress></sub>

                                                              <sub id="xthz1"></sub>

                                                                          <track id="xthz1"><meter id="xthz1"></meter></track>
                                                                              當前位置 > 首頁 > 學員原創 > 難道鳶尾花(iris)的樣本出現了“變異”?

                                                                              難道鳶尾花(iris)的樣本出現了“變異”?

                                                                              來源:CPDA數據分析師學習網 | 時間:2019-01-22 | 作者:數據分析學習網

                                                                              微信圖片_20190122172919

                                                                               

                                                                              很多人在學習機器學習,面對分類問題來實操算法時,往往會使用一個經典的植物樣本——鳶尾花(iris)入手。不過筆者最近在研究樣本的異常值時,圖方便也使用了鳶尾花這個經典樣本。不過隨著研究的深入,筆者卻發現一處值得探討的地方。

                                                                               

                                                                              筆者從R里面直接調出了150個鳶尾花(iris)樣本的數據集。大家都知道這個鳶尾花樣本數據集一共分成3個Species(品種):setosa、versicolor、和virginica。并且每一朵鳶尾花有4個維度的特征:Sepal.Length(萼片長度),Sepal.Width(萼片寬度)、Petal.Length(花瓣長度)、Petal.Width(花瓣寬度)。

                                                                               

                                                                              首先,筆者采用精度較低的聚類分析,強制將所有的樣本按照3個類別進行分類。分類的方法經過若干次嘗試,效果最好的是采用“歐式幾何距離”作為聚類的方法,用原始數據,不做變化。

                                                                               

                                                                              PS:?在這里可能有人會問我,為啥你不用一些高級點兒的分類算法呢?說實話我也不知道為啥會首先選擇這種低精度的方法,可能一開始這就是個錯誤吧。不過自我安慰一下的是,世界上好多發明或創造,也是從一些錯誤中深入研究從而取得的成果。比方說青霉素吧。

                                                                               

                                                                              這樣分類的結果就是,3個品種中,setosa、versicolor這2個品種100%識別準確,而virginica的準確率則有72%,也就是有14個樣本被分錯類。

                                                                               

                                                                              換做平常可能一般人就直接改用更高級的一些算法了招呼鳶尾花了,但我卻發現這些分類錯誤的樣本有一些詭異的地方。

                                                                               

                                                                              下面的表格,是筆者將14個分錯的樣本單獨提取了出來,展示如下:

                                                                               

                                                                              樣本編號 萼片長度 萼片寬度 花瓣長度 花瓣寬度 原品種 聚類算法識別的品種 判別
                                                                              102 5.8 2.7 5.1 1.9 virginica versicolor 不一致
                                                                              107 4.9 2.5 4.5 1.7 virginica versicolor 不一致
                                                                              114 5.7 2.5 5 2 virginica versicolor 不一致
                                                                              115 5.8 2.8 5.1 2.4 virginica versicolor 不一致
                                                                              120 6 2.2 5 1.5 virginica versicolor 不一致
                                                                              122 5.6 2.8 4.9 2 virginica versicolor 不一致
                                                                              124 6.3 2.7 4.9 1.8 virginica versicolor 不一致
                                                                              127 6.2 2.8 4.8 1.8 virginica versicolor 不一致
                                                                              128 6.1 3 4.9 1.8 virginica versicolor 不一致
                                                                              134 6.3 2.8 5.1 1.5 virginica versicolor 不一致
                                                                              139 6 3 4.8 1.8 virginica versicolor 不一致
                                                                              143 5.8 2.7 5.1 1.9 virginica versicolor 不一致
                                                                              147 6.3 2.5 5 1.9 virginica versicolor 不一致
                                                                              150 5.9 3 5.1 1.8 virginica versicolor 不一致

                                                                               

                                                                              大家發現一個特點沒有,就是這14個樣本都從virginica錯分成了versicolor。

                                                                               

                                                                              巧合嗎?

                                                                               

                                                                              于是這個特點激起了我的好奇心,于是筆者開始繼續深入的去探索。

                                                                               

                                                                              我們首先觀察下這3個品種和14個分錯的品種的一些均值和變異指標,看完后筆者不禁的大呼一聲,有戲!

                                                                               

                                                                              品種 萼片長度均值 萼片寬度均值 花瓣長度均值 花瓣寬度均值
                                                                              setosa 5.01 3.43 1.46 0.25
                                                                              Versicolor 5.94 2.77 4.26 1.33
                                                                              Virginica(準確分類) 6.85 3.08 5.79 2.10
                                                                              Virginica(錯誤分類) 5.91 2.71 4.95 1.84

                                                                               

                                                                              通過上表,大家發現沒有,不同的品種的鳶尾花它的萼片長度、寬度以及花瓣的長度、寬度都是有著顯著不同的。因為它們的均值在每個品種看來都差異比較大!

                                                                               

                                                                              但是仔細觀察一下我們會發現,錯誤分類的那14朵樣本很詭異,不僅明顯和準確分類的樣本相比要小一圈,而且它們卻和Versicolor這個品種很接近!為了排除干擾,筆者將這兩個品種放在一起做個比較。

                                                                               

                                                                              品種 萼片長度均值 萼片寬度均值 花瓣長度均值 花瓣寬度均值
                                                                              Versicolor 5.94 2.77 4.26 1.33
                                                                              Virginica(錯誤分類) 5.91 2.71 4.95 1.84

                                                                               

                                                                              真是不比不知道,一比嚇一跳。

                                                                               

                                                                              為了排除偶然的個別樣本對均值擾動產生影響,我們再來看看這些樣本的變異情況。

                                                                               

                                                                              品種 萼片長度標準差 萼片寬度標準差 花瓣長度標準差 花瓣寬度標準差
                                                                              setosa 0.35 0.38 0.17 0.11
                                                                              Versicolor 0.52 0.31 0.47 0.20
                                                                              Virginica(準確分類) 0.51 0.30 0.46 0.26
                                                                              Virginica(錯誤分類) 0.37 0.23 0.17 0.22

                                                                               

                                                                              首先我們看所有品種的標準差,無論是否分類錯誤。

                                                                               

                                                                              我們看到這些品種的樣本標準差都很小,幾乎都是均值的0.1倍,也就是說大家的變異系數幾乎都差不多是0.1。

                                                                              根據先驗的經驗,變異系數如果>0.3,那么說明樣本離散程度都比較大。

                                                                               

                                                                              而幾乎所有的品種的變異系數都幾乎在0.1這個水平,有的甚至才0.05不到,那說明每種品種的指標都比較穩定啊!

                                                                               

                                                                              因此筆者不由的產生一組假想或猜想:

                                                                               

                                                                              猜想1鳶尾花的樣本集中,有可能那14朵Virginica樣本實際上就是摘錯了或標記錯了。它們本來就應該屬于Versicolor這個品種。

                                                                               

                                                                              猜想2有可能那14朵Virginica實際上是產生了一些細微的變異,或者干脆說就是一個virginica的子品種。

                                                                               

                                                                              首先針對第1個猜想,筆者也查找過Virginica和Versicolor的照片,大家看看是不是長得比較像啊。

                                                                              說實話,光從外表上看,就單獨看著2朵花,仔細看還是可以看出區別的。但是如果你站在一堆花叢里,如果這2種花種在一起的話,估計就會有些難區分了。又或者說摘這些花的時間是在清晨或傍晚光線不足的情況下也有可能。

                                                                               

                                                                              你可能會想,如果這2個品種是分開2壟地種的呢,不就摘的時候不會分錯了嗎?

                                                                               

                                                                              這也不一定。

                                                                               

                                                                              因為如果2壟地相隔的比較近,風一吹的話有可能種子就從這個品種的花地里吹到了那一個品種的花地里;又或者小動物例如鳥類的排泄物剛好落在了另一個品種的花地的話,這樣一來,在2壟地相鄰的邊界并相互滲透一定的寬度帶內,會存在著2個品種混種的情況。

                                                                               

                                                                              對于猜想2,筆者則是這么認為的。

                                                                               

                                                                              我們首先看均值和標準差對比:

                                                                               

                                                                              品種 萼片長度均值 萼片寬度均值 花瓣長度均值 花瓣寬度均值
                                                                              Virginica(準確分類) 6.85 3.08 5.79 2.10
                                                                              Virginica(錯誤分類) 5.91 2.71 4.95 1.84
                                                                              品種 萼片長度標準差 萼片寬度標準差 花瓣長度標準差 花瓣寬度標準差
                                                                              Virginica(準確分類) 0.51 0.30 0.46 0.26
                                                                              Virginica(錯誤分類) 0.37 0.23 0.17 0.22

                                                                               

                                                                              雖然說這2個品種均值差異大,但是對比標準差(也就是最后2行)明顯的那14個Virginica錯誤分類的樣本的尺寸變化都比較小。

                                                                               

                                                                              尺寸變化小說明啥,說明的是它們的生長特點很集中。

                                                                               

                                                                              打個比方,如果說同樣的伙食費標準下,同樣一個地方生長的人,有的人從小到大經常曬太陽和鍛煉身體,因此身高普遍比較高比較壯,而且一看精神氣就很颯爽;有的人從小不愛運動并且整天宅在家里,因此個子相對矮并且比較瘦弱,整個人看上去都比較萎靡。這個看上去“都比較強壯、颯爽”或“都比較瘦弱、萎靡”,就是特點很集中的意思。

                                                                               

                                                                              回到鳶尾花的樣本,它們的指標均值不同而且變化小,說明那14朵樣本可能在生長環境、種子質量都讓這些花產生了明顯的變異,甚至有可能品種上是2個不同的品種。在此筆者暫且將之命名為Virginica II品種。這就好比廣東人和廣西人,地理位置雖然離得近,但是還是樣貌和體格上有些差異。

                                                                               

                                                                              那怎么樣來證明呢?

                                                                               

                                                                              其實沒見過實物,咱也不懂DNA分析技術,就真沒辦法通過嚴格的生物學知識進行證明。因此只好應用統計推斷技術了。

                                                                               

                                                                              首先,我們采用以下t檢驗,和非參數檢驗,看看這2個品種Virginica和Virginica II是否存在顯著的統計學差異。

                                                                               

                                                                              結果如下:

                                                                               

                                                                              2個獨立樣本的t檢驗
                                                                               H0:Virginica和Virginica II的4個指標均值相等
                                                                              檢驗指標及不同的假設 t Sig. (2-tailed)
                                                                              萼片長度均值 E等方差假設 -6.330 .000
                                                                              E非等方差假設 -7.257 .000
                                                                              萼片寬度均值 E等方差假設 -4.079 .000
                                                                              E非等方差假設 -4.586 .000
                                                                              花瓣長度均值 E等方差假設 -6.552 .000
                                                                              E非等方差假設 -9.339 .000
                                                                              花瓣寬度均值 E等方差假設 -3.207 .002
                                                                              E非等方差假設 -3.462 .002

                                                                               

                                                                              從均值的檢驗來看,這2個品種在4個指標上還是拒絕原假設,不能認為它們是一樣的。于是我們再使用非參數檢驗看看它們之間的概率分布是否來自于不同的正態總體

                                                                               

                                                                              序號 原假設 檢驗方法 Sig 判斷
                                                                              1 萼片長度在2個品種間的概率分布是相同的 Kolmogorov-Smirnov ?Test 0.000 拒絕原假設
                                                                              2 萼片寬度在2個品種間的概率分布是相同的 0.003
                                                                              3 花瓣長度在2個品種間的概率分布是相同的 0.000
                                                                              4 花瓣寬度在2個品種間的概率分布是相同的 0.006

                                                                               

                                                                              我們通過上表就可以發現這2個品種Virginica和Virginica II是來自不同的正態總體,換句大白話來說,也就是支持第2種猜想。這個變異可能是環境所致,也可能是種子的原因,也可能是栽種的過程有問題吧。

                                                                               

                                                                              其實,針對這個猜想,筆者的傾向性更高。因為后來筆者使用了精度比較高的SVM分類算法,發現這2類品種分類效果實在不錯,準確率為99%!

                                                                               

                                                                              筆者通過R語言的kernlab包,Virginica和Virginica II分別作了標簽之后混在一起,抽取了35個樣本作為訓練集,剩余15個樣本作為測試集;采用“rbfdot”徑向基函數作為核函數,其他參數例如懲罰系數、標準化轉換……均采用默認值。

                                                                               

                                                                              也就是說還沒有開展大面積調參的前提下,分類的準確率就達到了99%,說明Virginica和Virginica II確實存在著品種的邊界。

                                                                               

                                                                              即15個測試集中,只有1個分錯了類。

                                                                               

                                                                              不僅如此

                                                                               

                                                                              筆者將Versicolor、Virginica和Virginica II這100個樣本全部混在一起,也就是3個標簽,抽取其中35個作為測試集。還是相同的設置下,分類的準確率達到了92%,也就是說只有3個樣本分錯了。而且這3個分錯的樣本是Versicolor和Virginica II相互分錯,筆者估計可能是參數沒有調優,或者說可能存在假設1的情況。

                                                                               

                                                                              綜合以上的分析,筆者拋磚引玉,這個經典的鳶尾花數據樣本,還真可能存在品種變異的可能哦。

                                                                               

                                                                              你怎么看?

                                                                                      <thead id="xthz1"></thead>
                                                                                        <form id="xthz1"></form>

                                                                                            <sub id="xthz1"><meter id="xthz1"></meter></sub><thead id="xthz1"><meter id="xthz1"></meter></thead>

                                                                                            <thead id="xthz1"><meter id="xthz1"></meter></thead>

                                                                                            <th id="xthz1"></th>

                                                                                              <font id="xthz1"><meter id="xthz1"><i id="xthz1"></i></meter></font>

                                                                                                      <nobr id="xthz1"><meter id="xthz1"></meter></nobr>

                                                                                                      <th id="xthz1"><meter id="xthz1"></meter></th>

                                                                                                      <nobr id="xthz1"></nobr>

                                                                                                              <nobr id="xthz1"><meter id="xthz1"><var id="xthz1"></var></meter></nobr>

                                                                                                              <th id="xthz1"></th>
                                                                                                              <thead id="xthz1"><meter id="xthz1"><b id="xthz1"></b></meter></thead>
                                                                                                              
                                                                                                              

                                                                                                                  <pre id="xthz1"><noframes id="xthz1"><track id="xthz1"></track>

                                                                                                                      <nobr id="xthz1"><meter id="xthz1"><var id="xthz1"></var></meter></nobr>

                                                                                                                      <th id="xthz1"></th>

                                                                                                                        <address id="xthz1"></address>

                                                                                                                        <thead id="xthz1"><meter id="xthz1"></meter></thead>

                                                                                                                            <video id="xthz1"><span id="xthz1"><nobr id="xthz1"></nobr></span></video>

                                                                                                                              <th id="xthz1"><meter id="xthz1"></meter></th>

                                                                                                                              <th id="xthz1"></th>

                                                                                                                                <th id="xthz1"></th><track id="xthz1"><meter id="xthz1"></meter></track>

                                                                                                                                  <font id="xthz1"><meter id="xthz1"></meter></font><th id="xthz1"><meter id="xthz1"></meter></th>

                                                                                                                                      <sub id="xthz1"><progress id="xthz1"></progress></sub>

                                                                                                                                          <sub id="xthz1"></sub>

                                                                                                                                                      <track id="xthz1"><meter id="xthz1"></meter></track>
                                                                                                                                                          快3赚钱方法如下

                                                                                                                                                                  <thead id="xthz1"></thead>
                                                                                                                                                                    <form id="xthz1"></form>

                                                                                                                                                                        <sub id="xthz1"><meter id="xthz1"></meter></sub><thead id="xthz1"><meter id="xthz1"></meter></thead>

                                                                                                                                                                        <thead id="xthz1"><meter id="xthz1"></meter></thead>

                                                                                                                                                                        <th id="xthz1"></th>

                                                                                                                                                                          <font id="xthz1"><meter id="xthz1"><i id="xthz1"></i></meter></font>

                                                                                                                                                                                  <nobr id="xthz1"><meter id="xthz1"></meter></nobr>

                                                                                                                                                                                  <th id="xthz1"><meter id="xthz1"></meter></th>

                                                                                                                                                                                  <nobr id="xthz1"></nobr>

                                                                                                                                                                                          <nobr id="xthz1"><meter id="xthz1"><var id="xthz1"></var></meter></nobr>

                                                                                                                                                                                          <th id="xthz1"></th>
                                                                                                                                                                                          <thead id="xthz1"><meter id="xthz1"><b id="xthz1"></b></meter></thead>
                                                                                                                                                                                          
                                                                                                                                                                                          

                                                                                                                                                                                              <pre id="xthz1"><noframes id="xthz1"><track id="xthz1"></track>

                                                                                                                                                                                                  <nobr id="xthz1"><meter id="xthz1"><var id="xthz1"></var></meter></nobr>

                                                                                                                                                                                                  <th id="xthz1"></th>

                                                                                                                                                                                                    <address id="xthz1"></address>

                                                                                                                                                                                                    <thead id="xthz1"><meter id="xthz1"></meter></thead>

                                                                                                                                                                                                        <video id="xthz1"><span id="xthz1"><nobr id="xthz1"></nobr></span></video>

                                                                                                                                                                                                          <th id="xthz1"><meter id="xthz1"></meter></th>

                                                                                                                                                                                                          <th id="xthz1"></th>

                                                                                                                                                                                                            <th id="xthz1"></th><track id="xthz1"><meter id="xthz1"></meter></track>

                                                                                                                                                                                                              <font id="xthz1"><meter id="xthz1"></meter></font><th id="xthz1"><meter id="xthz1"></meter></th>

                                                                                                                                                                                                                  <sub id="xthz1"><progress id="xthz1"></progress></sub>

                                                                                                                                                                                                                      <sub id="xthz1"></sub>

                                                                                                                                                                                                                                  <track id="xthz1"><meter id="xthz1"></meter></track>

                                                                                                                                                                                                                                              <thead id="xthz1"></thead>
                                                                                                                                                                                                                                                <form id="xthz1"></form>

                                                                                                                                                                                                                                                    <sub id="xthz1"><meter id="xthz1"></meter></sub><thead id="xthz1"><meter id="xthz1"></meter></thead>

                                                                                                                                                                                                                                                    <thead id="xthz1"><meter id="xthz1"></meter></thead>

                                                                                                                                                                                                                                                    <th id="xthz1"></th>

                                                                                                                                                                                                                                                      <font id="xthz1"><meter id="xthz1"><i id="xthz1"></i></meter></font>

                                                                                                                                                                                                                                                              <nobr id="xthz1"><meter id="xthz1"></meter></nobr>

                                                                                                                                                                                                                                                              <th id="xthz1"><meter id="xthz1"></meter></th>

                                                                                                                                                                                                                                                              <nobr id="xthz1"></nobr>

                                                                                                                                                                                                                                                                      <nobr id="xthz1"><meter id="xthz1"><var id="xthz1"></var></meter></nobr>

                                                                                                                                                                                                                                                                      <th id="xthz1"></th>
                                                                                                                                                                                                                                                                      <thead id="xthz1"><meter id="xthz1"><b id="xthz1"></b></meter></thead>
                                                                                                                                                                                                                                                                      
                                                                                                                                                                                                                                                                      

                                                                                                                                                                                                                                                                          <pre id="xthz1"><noframes id="xthz1"><track id="xthz1"></track>

                                                                                                                                                                                                                                                                              <nobr id="xthz1"><meter id="xthz1"><var id="xthz1"></var></meter></nobr>

                                                                                                                                                                                                                                                                              <th id="xthz1"></th>

                                                                                                                                                                                                                                                                                <address id="xthz1"></address>

                                                                                                                                                                                                                                                                                <thead id="xthz1"><meter id="xthz1"></meter></thead>

                                                                                                                                                                                                                                                                                    <video id="xthz1"><span id="xthz1"><nobr id="xthz1"></nobr></span></video>

                                                                                                                                                                                                                                                                                      <th id="xthz1"><meter id="xthz1"></meter></th>

                                                                                                                                                                                                                                                                                      <th id="xthz1"></th>

                                                                                                                                                                                                                                                                                        <th id="xthz1"></th><track id="xthz1"><meter id="xthz1"></meter></track>

                                                                                                                                                                                                                                                                                          <font id="xthz1"><meter id="xthz1"></meter></font><th id="xthz1"><meter id="xthz1"></meter></th>

                                                                                                                                                                                                                                                                                              <sub id="xthz1"><progress id="xthz1"></progress></sub>

                                                                                                                                                                                                                                                                                                  <sub id="xthz1"></sub>

                                                                                                                                                                                                                                                                                                              <track id="xthz1"><meter id="xthz1"></meter></track>