wildcat on plurk

Plurk.com

早上對於部落格觀察幾個指標的計算方式做了微幅的調整,
讓「外來的排名」影響力稍微下降 (主要是對於 Bloginference 跟 Technorati)
所以大家的名次可能都稍微有些變動,
這邊也說明一下目前幾項指標的計算方式,一解大家長久(?)以來心中的疑惑 :p

 

先列一下要說明的幾個指標,共計有「Index指數」、「影響」、「Page總分」以及「重視」…
之後的那些數值都是拿來計算前面這幾項的依據,
而那些數值怎麼得到,點入該數值的 Link 就可以得知,就不多做說明。

四個主要指標中,最容易瞭解的是 Page 總分以及重視,
都是把所有的數字都加總而已,不過加的對象不同。


重視是針對所有的訂閱以及網摘數量做加總,
目前包含了


Page 總分是把所有看得到的數字全都加起來,
包含了

  • Google 搜尋該網誌網址的數量 (有加 http:// 與沒加上的分開算)
  • Google 的 Link 數
  • Yahoo 的 Link 數
  • Google Blogger Search 的 Link 數與 Post 數
  • Bloginference 的總分
  • Technorati 的 URL 數以及 Link 數
  • Furl 搜尋到的 Link 數
  • 最後在加上重視的總分

Index 指數則是把以下這些數值取 log 後在相加
(目的是為了淡化每項的影響力,取出均值)

  • Google 搜尋網址數量 (含http://與不含的先相加)
  • Google Link 數
  • Yahoo Link 數
  • Google Blogger Search 的 Link 數與 Post 數
  • Bloginference 的總分
  • Technorati 的 URL 數以及 Link 數
  • Furl 搜尋到的 Link 數
  • 重視

發現了嗎?其實跟Page總分用的數值是一樣的,只是取了 log 之後,
可以讓 Yahoo Link 或是 Bloginference 這類比較容易衝高的分數的影響力降低。


接著是影響,這也是我今天做了比較大的調整的部份,
原本的計算方式是把其他幾個數值的加總後乘上 Yahoo Link 再開根號,取給和平均數,
不過只開二次方根還是會造成某項數值較高,就把影響分數大幅提高的情況,
所以我把它改成

  • Yahoo Link 數
  • Google Link 數 +  Blogger Search Link 數 + Blogger Search  Post 數
  • Technorati  URL數 + Link 數 + Furl Search Link 數

這三項相乘之後,開三次方根。


當然還有很多可以考慮的計算方式,或是可以參考的數值(例如MSN Search 數),我們也會陸續的考量進去,
關於平均數的計算方式,可以參考 Wiki

 


除了四個主要的指標,相信也有很多人好奇,
那最後總排名又是怎麼計算出來的?

總排名奇很簡單,將前面四項加總,
再加上 Bloginference 跟 Technorita 的排名之平均,
五項加起來最小的就是第一名了,
所以排名要前面,還是要「五育均衡」 :D

 

最後,我想要操弄這麼多項數值有一定的難度在,
所以與其費盡心思想要把排名衝高,
還不如用心經營自己的部落格,
而且廣結同好,大家多多交換文章與連結,
排名就會自然的提昇了 :D

 

16 Responses to “[部落格觀察] 計算方式大揭密”

  1. MRK 說道:

    取log再相加≡相乘再取log

  2. 野貓 說道:

    沒錯,不過怕 int 爆掉,還是先取再說 ^^;

  3. hao 說道:

    Gea-Suan Lin 那篇「部落格排名?」的批評或許直接了些,但「標準化」的建議是適當的。

    以「重視」這個指標為例,可將每個來源的原始分數轉換為標準分數。假定全部被觀察的部落格的 Bloglines 訂閱人數平均數是 M,標準差是 SD,如果某個部落格在 Bloglines 有 N 人訂閱,標準分數就是 (N – M)/SD。

    這樣算出來的標準分數,分佈是:平均數 0,標準差 1。如果覺得讀者不習慣看有正負號又有小數點的數字,可以再作線性轉換。例如,把標準分數的平均數設為 100,標準差設為 15。這樣每個部落格就有一個正整數的分數,而且同樣容易從分數中看出相對位置。

    如此,每個部落格在「重視」的 7 個來源就有 7 個標準分數。假定各來源權重相同,那麼直接相加除以 7 就可以了。如果權重不同,就計算加權平均值。

    其他的指標亦可用同樣方式計算。另外,採用這樣的算法,「Page 總分」與「Index 指數」只需要其中一個。

  4. “野貓 說道:

    我完全贊同 hao 的計算法,
    其實我在那篇下面有留言,引一段回來:

    如果要以「都是不同的東西,所以不能加在一起」這個觀點出發,
    那或許最準確的計算方式當是每個來源都獨立的計算排名,
    在將每個排名取平均數看誰最低。

    不過重點還是在於「權重」;
    BTW,我會試著去作一個這樣的計算結果,
    看看如果都算完相加後,排名會有多大的差異 :D

  5. hao 說道:

    名次可能不太適合拿來平均,因為它只是表示相對次序,而無法充分表示量的差異。例如,排序後,第 n 名和第 n+1 名的差距是 1,第 k 名和第 k+1 名的差距也是 1。實際上,第 n 名和第 n+1 名原始分數的差距,和第 k 名和第 k+1 名原始分數的差距,兩者未必是相同的。使用標準分數的話,就可以保留這些距離的訊息。

    分數標準化以後,「不同的東西不能加在一起或平均」的問題應該就解決了。再來就是比較麻煩的權重問題了,如果可以依據某些原則自動分配權重是最好的。否則,就得用人工的方式分配了。

  6. 雪狼之湖 說道:

    東加加 西減減
    哇哈 哈哈哈哈哈

  7. “野貓 說道:

    剛想到,有個比較嚴重的問題。

    並非所有的項目都是常態分配,
    比較多人使用的 Google , Yahoo 這種搜尋引擎或許可以算出標準分數,
    但較少人使用的,尤其是計算重視度的部份,
    許多網站都是有用的人僅佔少部份,例如 myshare、myzilla,
    在一萬個部落格裡面,在myshare有網址的只有約兩千個,MyZilla更只有一百多個。
    在母群不是常態分配的情況下,算出來的不管是Z分數或是線性轉換之後的T分數 or anyway,其實沒有多大的意義 (都離標準差很遠)。
    要畫圖的話,應該是個兩邊高起的反曲線圖吧 ^^;;

  8. 黒貘 說道:

    事實上在 wildcat 算之前, 或者是G.S.Lin 在講之前,
    我就知道所有的數字都不是 Normal Distribution,
    比較像是 t 分配或 Erlang Distribtion….

    而要把完全不同的數字(單位)相加的錯誤,
    這我是承認, 但唯一的方式就是所有事情都是獨立事件,
    不該, 或不得已的變成一個唯一的名次,
    是這些單位都無法 Normailization 的最不負責的方法..

    而要不要來做 Normailzation 時,
    我就發現無論是做與不做, 都代表是一種 Weight…
    如 Google 是 1 到 10000, Yahoo 是 1 到 100000,
    若是做 Normalization, 往往代表的是 Yahoo的權重 *10
    但不做時, 也代表Yahoo 比 Google 多 10倍的表現…
    若真的要算好, 還得參考 SEO, 如前 10 頁出現的機會等等…

    因此理論上應該是依使用者的使用量, 再做權重是較對的方式…
    但有趣的應該是出現比例的化,
    事實上是連都不要化成 1..100, 而直接將這數字乘上權數是更接近出現比例…

    反倒是重視這塊, 真的剛好可以直接相加..
    因為這代表的是使用者數….
    但若把 Delicious 與 MyShare 都變成 1..100 的數字的話,
    反而是加上權重把 MyShare 跟 Delicious 的人數與影響力拉成一樣,
    但事實上摘入數與使用者數往往成正比,
    跟本不須要 Normalization 就可以直接相加…

    我不否認這公式還有很多問題,
    但我私底下未官方的相信,
    是有正負10%的信任值..

  9. “野貓 說道:

    官方的未官方相信是什麼鬼 XD

  10. hao 說道:

    標準分數只不過是原始分數的線性轉換而已,不需要常態分配的假定,簡單可行。黒貘提到原始的頻率統計已經可以反映權重,但權重的估計還是可以分開進行。也就是說,先針對各來源算出標準分數,再根據各來源原始分數平均的差異來估算權重。

  11. 野貓 說道:

    嗯,可以算,事實上我也算了,
    但是像 MyZilla 這種沒什麼人用的服務,
    有一兩個連結標準分數就到好幾千分去了 XD
    像我有九個,足足有四萬多 :p
    到底要加權在計算呢?還是就照原本的直接相加?
    我想怎麼解釋都合理 :)

  12. sfg 說道:

    不贊成帶有操弄的心態
    心思不應該花在操弄上面
    本末倒置
    這種分析文本來就不應該存在
    心態可議

  13. DoDo 說道:

    http://www.hemidemi.com/bookmark/info/650851

    恭喜

    您作弊可以做到 50 個被連接數最高的台灣部落格 的第五名

    厲害厲害

  14. 野貓 說道:

    好一陣子沒作更新,
    差點把幾個新的留言跟 spam 一起刪了 XD

    作弊與否就自由去評斷吧,
    Yahoo 要把我這的網址列了這麼多在 site explorer 裡面,
    也不是我能拒絕的吧? :p

  15. 小雨 說道:

    剛剛看了您的內容與更新速度 甚至你們所謂的擴散力

    貴站名列台灣部落格排名榜前幾位

    真是這個排行榜的一大諷刺啊!!

  16. SaSa 說道:

    這樣就有24名喔

Leave a Reply

You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>