<em id="09ttv"></em>
    <sup id="09ttv"><pre id="09ttv"></pre></sup>
    <dd id="09ttv"></dd>

        • 以求醫(yī)方式談搜索引擎

          2012-1-3    藍藍設(shè)計的小編

          轉(zhuǎn)載藍藍設(shè)計( m.sdgs6788.com )是一家專注而深入的設(shè)計機構(gòu) ,為期望卓越的國內(nèi)外企業(yè)提供有效的 BS界面設(shè)計 cs界面設(shè)計 ipad界面設(shè)計 包裝設(shè)計 圖標(biāo)定制 用戶體驗 、交互設(shè)計、 網(wǎng)站建設(shè) 、平面設(shè)計服務(wù)

          如果您想訂閱本博客內(nèi)容,每天自動發(fā)到您的郵箱中,      請點這里     

          我們向搜索引擎提交一個查詢,搜索引擎會從先到后列出大量的結(jié)果,這些結(jié)果排序的標(biāo)準是什么呢?這個看似簡單的問題,卻是信息檢索專家們研究的核心難題之一。

            為了說明這個問題,我們來研究一個比搜索引擎更加古老的話題:求醫(yī)。比如,如果我牙疼,應(yīng)該去看怎樣的醫(yī)生呢?假設(shè)我只有三種選擇:

          A醫(yī)生,既治眼病,又治胃病; 
          B醫(yī)生,既治牙病,又治胃病,還治眼病; 
          C醫(yī)生,專治牙病。 
             A醫(yī)生肯定不在考慮之列。B醫(yī)生和C醫(yī)生之間,貌視更應(yīng)該選擇C醫(yī)生,因為他更專注,更適合我的病情。假如再加一個條件:B醫(yī)生經(jīng)驗豐富,有二十年從醫(yī) 經(jīng)歷,醫(yī)術(shù)高明,而C醫(yī)生只有五年從醫(yī)經(jīng)驗,這個問題就不那么容易判斷了,是優(yōu)先選擇更加專注的C醫(yī)生,還是優(yōu)先選擇醫(yī)術(shù)更加高明的B醫(yī)生,的確成了一個 需要仔細權(quán)衡的問題。

            至少,我們得到了一個結(jié)論,擇醫(yī)需要考慮兩個條件:醫(yī)生的專長與病情的適配程度;醫(yī)生的醫(yī)術(shù)。大家肯定覺得這個 結(jié)論理所當(dāng)然,而且可以很自然地聯(lián)想到,搜索引擎排序不也是這樣嗎,既要考慮網(wǎng)頁內(nèi)容與用戶查詢的匹配程度,又要考慮網(wǎng)頁本身的質(zhì)量。但是,怎么把這兩種 因素結(jié)合起來,得到一個,而不是兩個或多個排序標(biāo)準呢?假如我們把這兩種因素表示成數(shù)值,最終的排序依據(jù)是把這兩個數(shù)值加起來,還是乘起來,或是按決策樹 的辦法把它們組織起來?如果是加起來,是簡單相加,還是帶權(quán)重加呢?

            我們可以根據(jù)直覺和經(jīng)驗,通過試錯的辦法,把這兩個因素結(jié)合起 來。但更好的辦法是我們能找到一個明確的依據(jù),最好能跟數(shù)學(xué)這樣堅實的學(xué)科聯(lián)系起來。說起來,依據(jù)樸素的經(jīng)驗,人類在古代就能建造出高樓;但要建造出高達 數(shù)百米的 摩天大廈,如果沒有建筑力學(xué)、材料力學(xué)這樣堅實的學(xué)科作為后盾,則是非常非常困難的。同理,依據(jù)樸素的經(jīng)驗構(gòu)建的搜索引擎算法,用來處理上萬的網(wǎng)頁集合應(yīng) 該是沒問題的;但要檢索上億的網(wǎng)頁,則需要更為牢固的理論基礎(chǔ)。

            求醫(yī),病人會優(yōu)先選擇診斷準確、治療效果好的醫(yī)生;對于搜索引擎來說,一般按網(wǎng)頁滿足用戶需求的概率從大到小排序。如果用q表示用戶給出了一個特定的查詢,用d表示一個特定的網(wǎng)頁滿足了用戶的需求,那么排序的依據(jù)可以用一個條件概率來表示:

          P(d|q)

          這個簡單的條件概率,將搜索引擎排序算法與概率論這門堅實的學(xué)科聯(lián)系了起來,這就像在大海中航行的船只裝備了指南針一樣。利用貝葉斯公式,這個條件概率可以表示為:


          可以清楚地看到,搜索引擎的排序標(biāo)準,是由三個部分組成的:查詢本身的屬性P(q);網(wǎng)頁本身的屬性P(d);兩者的匹配關(guān)系P(q|d)。對于同一次查詢來說,所有網(wǎng)頁對應(yīng)的P(q)都是一樣的,因此排序時可以不考慮,即


          公 式左邊,是已知用戶的查詢,求網(wǎng)頁滿足該用戶需求的概率。搜索引擎為了提高響應(yīng)用戶查詢的性能,需要事先對所有待查詢的網(wǎng)頁做預(yù)處理。預(yù)處理時,只知道網(wǎng) 頁,不知道用戶查詢,因此需要倒過來計算,即分析每個網(wǎng)頁能滿足哪些需求,該網(wǎng)頁分了多大比例來滿足該需求,即得到公式右邊的第一項P(q|d),這相當(dāng) 于上文介紹的醫(yī)生的專門程度。比如,一個網(wǎng)頁專門介紹牙病,另一個網(wǎng)頁既介紹牙病又介紹胃病,那么對于“牙疼”這個查詢來說,前一個網(wǎng)頁的P(q|d)值 就會更高一些。

            公式右邊的第二項P(d),是一個網(wǎng)頁滿足用戶需求的概率,它反映了網(wǎng)頁本身的好壞,與查詢無關(guān)。假如要向一個陌生人 推薦網(wǎng)頁(我們并不知道他需要什么),那么P(d)就相當(dāng)于某個特定的網(wǎng)頁被推薦的概率。在傳統(tǒng)的信息檢索模型中,這一個量不太被重視,如傳統(tǒng)的向量空間 模型、BM25模型,都試圖只根據(jù)查詢與文檔的匹配關(guān)系來得到排序的權(quán)重。而實際上,這個與查詢無關(guān)的量是非常重要的。假如我們用網(wǎng)頁被訪問的頻次來估計 它滿足用戶需求的概率,可以看出對于兩個不同的網(wǎng)頁,這個量有著極其巨大的差異:有的網(wǎng)頁每天只被訪問一兩次,而有的網(wǎng)頁每天被訪問成千上萬次。能夠提供 如此巨大差異的量,竟長期被傳統(tǒng)的搜索引擎忽略,直到Google發(fā)明了pagerank并讓它參與到排序中。Pagerank是對P(d)值的一個不錯 的估計,這個因素的加入使搜索引擎的效果立即上升到了一個新的臺階。

            這個公式同樣回答了上文提出的問題,網(wǎng)頁與查詢的匹配程度,和網(wǎng) 頁本身的好壞,這兩個因素應(yīng)該怎樣結(jié)合起來參與排序。這個公式以不可辯駁的理由告訴我們,如果網(wǎng)頁與查詢的匹配程度用P(q|d)來表示,網(wǎng)頁本身的好壞 用P(d)來表示,那么應(yīng)該按它們的乘積來進行排序。在現(xiàn)代商業(yè)搜索引擎中,需要考慮更多更細節(jié)的排序因素,這些因素可能有成百上千個,要把它們?nèi)诤掀饋?是更加復(fù)雜和困難的問題。

          日歷

          鏈接

          個人資料

          藍藍設(shè)計的小編 http://m.sdgs6788.com

          存檔

          青青草国产成人久久91网| 精品一二三区久久aaa片| 久久国产精品-久久精品| 久久精品国产一区| 国产精品欧美久久久久无广告| 欧美伊人久久大香线蕉综合69| 亚洲综合熟女久久久30p| 久久精品国产99国产电影网| 一本久久综合亚洲鲁鲁五月天亚洲欧美一区二区 | 亚洲第一永久AV网站久久精品男人的天堂AV | 99久久精品免费国产大片| 亚洲国产精品无码久久青草| 国产精品18久久久久久vr | 2020最新久久久视精品爱 | 久久这里只精品国产99热| 国产精品亚洲综合久久| 亚洲国产精品人久久| 色综合久久久久无码专区| 久久人人爽人爽人人爽av| 夜夜亚洲天天久久| 久久丫精品国产亚洲av不卡| 欧美一级久久久久久久大片| 精品久久人人做人人爽综合| 99久久精品费精品国产一区二区| 久久中文字幕人妻丝袜| 久久久中文字幕日本| 久久精品国产99国产电影网| 久久久无码精品亚洲日韩蜜臀浪潮 | 欧美麻豆久久久久久中文| www.久久精品| 久久ZYZ资源站无码中文动漫| 精品国产乱码久久久久久人妻| 欧美精品一区二区久久| 理论片午午伦夜理片久久 | 国产无套内射久久久国产| 久久无码人妻一区二区三区| 一本一本久久a久久综合精品蜜桃| 18禁黄久久久AAA片| 精品综合久久久久久98| 久久久亚洲AV波多野结衣 | 国产婷婷成人久久Av免费高清|