早上對於部落格觀察幾個指標的計算方式做了微幅的調整,
讓「外來的排名」影響力稍微下降 (主要是對於 Bloginference 跟 Technorati)
所以大家的名次可能都稍微有些變動,
這邊也說明一下目前幾項指標的計算方式,一解大家長久(?)以來心中的疑惑 :p
先列一下要說明的幾個指標,共計有「Index指數」、「影響」、「Page總分」以及「重視」…
之後的那些數值都是拿來計算前面這幾項的依據,
而那些數值怎麼得到,點入該數值的 Link 就可以得知,就不多做說明。
四個主要指標中,最容易瞭解的是 Page 總分以及重視,
都是把所有的數字都加總而已,不過加的對象不同。
重視是針對所有的訂閱以及網摘數量做加總,
目前包含了
Page 總分是把所有看得到的數字全都加起來,
包含了
- Google 搜尋該網誌網址的數量 (有加 http:// 與沒加上的分開算)
- Google 的 Link 數
- Yahoo 的 Link 數
- Google Blogger Search 的 Link 數與 Post 數
- Bloginference 的總分
- Technorati 的 URL 數以及 Link 數
- Furl 搜尋到的 Link 數
- 最後在加上重視的總分
Index 指數則是把以下這些數值取 log 後在相加
(目的是為了淡化每項的影響力,取出均值)
- Google 搜尋網址數量 (含http://與不含的先相加)
- Google Link 數
- Yahoo Link 數
- Google Blogger Search 的 Link 數與 Post 數
- Bloginference 的總分
- Technorati 的 URL 數以及 Link 數
- Furl 搜尋到的 Link 數
- 重視
發現了嗎?其實跟Page總分用的數值是一樣的,只是取了 log 之後,
可以讓 Yahoo Link 或是 Bloginference 這類比較容易衝高的分數的影響力降低。
接著是影響,這也是我今天做了比較大的調整的部份,
原本的計算方式是把其他幾個數值的加總後乘上 Yahoo Link 再開根號,取給和平均數,
不過只開二次方根還是會造成某項數值較高,就把影響分數大幅提高的情況,
所以我把它改成
- Yahoo Link 數
- Google Link 數 + Blogger Search Link 數 + Blogger Search Post 數
- Technorati URL數 + Link 數 + Furl Search Link 數
這三項相乘之後,開三次方根。
當然還有很多可以考慮的計算方式,或是可以參考的數值(例如MSN Search 數),我們也會陸續的考量進去,
關於平均數的計算方式,可以參考 Wiki 。
除了四個主要的指標,相信也有很多人好奇,
那最後總排名又是怎麼計算出來的?
總排名奇很簡單,將前面四項加總,
再加上 Bloginference 跟 Technorita 的排名之平均,
五項加起來最小的就是第一名了,
所以排名要前面,還是要「五育均衡」
最後,我想要操弄這麼多項數值有一定的難度在,
所以與其費盡心思想要把排名衝高,
還不如用心經營自己的部落格,
而且廣結同好,大家多多交換文章與連結,
排名就會自然的提昇了
取log再相加≡相乘再取log
沒錯,不過怕 int 爆掉,還是先取再說 ^^;
Gea-Suan Lin 那篇「部落格排名?」的批評或許直接了些,但「標準化」的建議是適當的。
以「重視」這個指標為例,可將每個來源的原始分數轉換為標準分數。假定全部被觀察的部落格的 Bloglines 訂閱人數平均數是 M,標準差是 SD,如果某個部落格在 Bloglines 有 N 人訂閱,標準分數就是 (N – M)/SD。
這樣算出來的標準分數,分佈是:平均數 0,標準差 1。如果覺得讀者不習慣看有正負號又有小數點的數字,可以再作線性轉換。例如,把標準分數的平均數設為 100,標準差設為 15。這樣每個部落格就有一個正整數的分數,而且同樣容易從分數中看出相對位置。
如此,每個部落格在「重視」的 7 個來源就有 7 個標準分數。假定各來源權重相同,那麼直接相加除以 7 就可以了。如果權重不同,就計算加權平均值。
其他的指標亦可用同樣方式計算。另外,採用這樣的算法,「Page 總分」與「Index 指數」只需要其中一個。
我完全贊同 hao 的計算法,
其實我在那篇下面有留言,引一段回來:
如果要以「都是不同的東西,所以不能加在一起」這個觀點出發,
那或許最準確的計算方式當是每個來源都獨立的計算排名,
在將每個排名取平均數看誰最低。
不過重點還是在於「權重」;
BTW,我會試著去作一個這樣的計算結果,
看看如果都算完相加後,排名會有多大的差異
名次可能不太適合拿來平均,因為它只是表示相對次序,而無法充分表示量的差異。例如,排序後,第 n 名和第 n+1 名的差距是 1,第 k 名和第 k+1 名的差距也是 1。實際上,第 n 名和第 n+1 名原始分數的差距,和第 k 名和第 k+1 名原始分數的差距,兩者未必是相同的。使用標準分數的話,就可以保留這些距離的訊息。
分數標準化以後,「不同的東西不能加在一起或平均」的問題應該就解決了。再來就是比較麻煩的權重問題了,如果可以依據某些原則自動分配權重是最好的。否則,就得用人工的方式分配了。
東加加 西減減
哇哈 哈哈哈哈哈
剛想到,有個比較嚴重的問題。
並非所有的項目都是常態分配,
比較多人使用的 Google , Yahoo 這種搜尋引擎或許可以算出標準分數,
但較少人使用的,尤其是計算重視度的部份,
許多網站都是有用的人僅佔少部份,例如 myshare、myzilla,
在一萬個部落格裡面,在myshare有網址的只有約兩千個,MyZilla更只有一百多個。
在母群不是常態分配的情況下,算出來的不管是Z分數或是線性轉換之後的T分數 or anyway,其實沒有多大的意義 (都離標準差很遠)。
要畫圖的話,應該是個兩邊高起的反曲線圖吧 ^^;;
事實上在 wildcat 算之前, 或者是G.S.Lin 在講之前,
我就知道所有的數字都不是 Normal Distribution,
比較像是 t 分配或 Erlang Distribtion….
而要把完全不同的數字(單位)相加的錯誤,
這我是承認, 但唯一的方式就是所有事情都是獨立事件,
不該, 或不得已的變成一個唯一的名次,
是這些單位都無法 Normailization 的最不負責的方法..
而要不要來做 Normailzation 時,
我就發現無論是做與不做, 都代表是一種 Weight…
如 Google 是 1 到 10000, Yahoo 是 1 到 100000,
若是做 Normalization, 往往代表的是 Yahoo的權重 *10
但不做時, 也代表Yahoo 比 Google 多 10倍的表現…
若真的要算好, 還得參考 SEO, 如前 10 頁出現的機會等等…
因此理論上應該是依使用者的使用量, 再做權重是較對的方式…
但有趣的應該是出現比例的化,
事實上是連都不要化成 1..100, 而直接將這數字乘上權數是更接近出現比例…
反倒是重視這塊, 真的剛好可以直接相加..
因為這代表的是使用者數….
但若把 Delicious 與 MyShare 都變成 1..100 的數字的話,
反而是加上權重把 MyShare 跟 Delicious 的人數與影響力拉成一樣,
但事實上摘入數與使用者數往往成正比,
跟本不須要 Normalization 就可以直接相加…
我不否認這公式還有很多問題,
但我私底下未官方的相信,
是有正負10%的信任值..
官方的未官方相信是什麼鬼 XD
標準分數只不過是原始分數的線性轉換而已,不需要常態分配的假定,簡單可行。黒貘提到原始的頻率統計已經可以反映權重,但權重的估計還是可以分開進行。也就是說,先針對各來源算出標準分數,再根據各來源原始分數平均的差異來估算權重。
嗯,可以算,事實上我也算了,
但是像 MyZilla 這種沒什麼人用的服務,
有一兩個連結標準分數就到好幾千分去了 XD
像我有九個,足足有四萬多 :p
到底要加權在計算呢?還是就照原本的直接相加?
我想怎麼解釋都合理
不贊成帶有操弄的心態
心思不應該花在操弄上面
本末倒置
這種分析文本來就不應該存在
心態可議
http://www.hemidemi.com/bookmark/info/650851
恭喜
您作弊可以做到 50 個被連接數最高的台灣部落格 的第五名
厲害厲害
好一陣子沒作更新,
差點把幾個新的留言跟 spam 一起刪了 XD
作弊與否就自由去評斷吧,
Yahoo 要把我這的網址列了這麼多在 site explorer 裡面,
也不是我能拒絕的吧? :p
剛剛看了您的內容與更新速度 甚至你們所謂的擴散力
貴站名列台灣部落格排名榜前幾位
真是這個排行榜的一大諷刺啊!!
這樣就有24名喔