歡迎來(lái)到 常識(shí)詞典網(wǎng) , 一個(gè)專業(yè)的常識(shí)知識(shí)學(xué)習(xí)網(wǎng)站!
[ Ctrl + D 鍵 ]收藏本站
答案 1:
原創(chuàng)內(nèi)容識(shí)別是搜索引擎的難題之一,google在這方面做的明顯要好, 但和理想的情況還是有差距.以"談?wù)剷鴥r(jià)"這個(gè)query為例, google的結(jié)果已經(jīng)做的非常棒了google.-k/#-l=z--C...幾個(gè)可能的識(shí)別"原創(chuàng)"的方法:時(shí)間:直觀來(lái)想最重要的識(shí)別因子就是時(shí)間, 但對(duì)于google而言, 這個(gè)因子卻很難像我們想象的那樣有效. 可能的幾個(gè)參考時(shí)間:搜索引擎收錄時(shí)間: 由于抓取系統(tǒng)的調(diào)度不同, 即使是google, 即使是用ping, 原創(chuàng)結(jié)果也不一定優(yōu)先被收錄(雖然在很多情況下, 已經(jīng)向這個(gè)方向靠攏了). 這是基于優(yōu)先級(jí)隊(duì)列的網(wǎng)頁(yè)抓取算法和機(jī)器抓取性能有限共同決定的. 第一時(shí)間新浪編輯轉(zhuǎn)載的內(nèi)容可能就比原創(chuàng)先收錄.
網(wǎng)頁(yè)上文章的生成時(shí)間: 拋開(kāi)完全不靠譜的服務(wù)器lastmodifytime, 網(wǎng)頁(yè)上本身就顯示有生成時(shí)間, 如果可以被識(shí)別, 也是有效的. 但并不是所有的網(wǎng)頁(yè)都有這個(gè)屬性,read.weiwu-ui/arc-ives... 就找不到有意義的時(shí)間. 而且即使存在, 對(duì)于這個(gè)由網(wǎng)頁(yè)生成者提供的時(shí)間, 是否可信也是一個(gè)問(wèn)題.
基本上是沒(méi)有所有網(wǎng)頁(yè)通用的有效時(shí)間因素, 可以被搜索引擎獲取到. 時(shí)間不準(zhǔn)確的話, 即使是完全相同的網(wǎng)頁(yè)內(nèi)容, 也無(wú)法判斷了. (判斷網(wǎng)頁(yè)是否微小改變, 由于時(shí)間不靠譜, 在原創(chuàng)問(wèn)題上就不是重要的因素, 就不展開(kāi)了. 從方法上看, 列溫斯頓編輯距離這些方法已經(jīng)是非常成熟有效的. 看起來(lái)google沒(méi)這么用)鏈接關(guān)系:在一個(gè)理想化的互聯(lián)網(wǎng)里面, 轉(zhuǎn)載方會(huì)給出原始出處, 鏈接關(guān)系就是比較靠譜的識(shí)別原創(chuàng)的方法. google可以順著鏈接關(guān)系, 找到最終的原始出處. 但目前來(lái)看, 這個(gè)方法的作用有限:沒(méi)有專業(yè)精神的轉(zhuǎn)載者: 轉(zhuǎn)載不給出出處, ^C+^Y-. 簡(jiǎn)體中文互聯(lián)網(wǎng)里面幾乎所有的綜合性站點(diǎn), 都有一些編輯耍流氓不給出原始出處的現(xiàn)象, 甚至是剽竊別人的內(nèi)容當(dāng)做自己的原創(chuàng). 這種-和剽竊, 切斷了鏈接的傳播途徑(現(xiàn)在微博上的那些粉絲多的草根微博, 都是走-粘貼這個(gè)路數(shù)的貨色, 更不要說(shuō)采集站了). 搜索引擎識(shí)別不能.
沒(méi)有統(tǒng)一的出處: 對(duì)于一些urban legend或者笑話, 人類自己都搞不清楚源頭是什么, 甚至很多源頭都不在互聯(lián)網(wǎng)上. 鏈接關(guān)系也無(wú)法指向最終出處, 可能指向的只是可考的鏡像. 這類超出人類自身的問(wèn)題, 搜索引擎也沒(méi)能力.
傳播能力:目前看, google識(shí)別原創(chuàng)的最主要手段就是識(shí)別傳播能力. 根據(jù)meme理論傳播越廣的內(nèi)容其價(jià)值越高:en.-.org/wiki...其實(shí)這里換了概念, 把"原創(chuàng)"換成了"價(jià)值高". 這是一種對(duì)于識(shí)別"原創(chuàng)"困難的折中. 把找出"源頭"的工作, 交給了用戶的群體智慧. 網(wǎng)頁(yè)被用戶通過(guò)主動(dòng)的方式看到的越多, 那么他是"原創(chuàng)"的概率就越大. 把識(shí)別的工作, 交給了全體用戶來(lái)共同參與. 相當(dāng)于是我們找出了信息源(但有可能不是原創(chuàng)), 再把這個(gè)結(jié)果告訴google. 雖然可能不是真正的原創(chuàng), 但可能是最具影響力的結(jié)果.基于此我們經(jīng)??吹? 對(duì)于同一篇內(nèi)容, 投稿在月光博客上的網(wǎng)頁(yè), 會(huì)比真正的原創(chuàng)網(wǎng)頁(yè)排名高.對(duì)于query: quora的創(chuàng)新, 知乎的土壤google的結(jié)果第一位的就是月光博客上的結(jié)果, 而真正的原創(chuàng)結(jié)果是第一頁(yè)找不到的.至于如何識(shí)別網(wǎng)頁(yè)的"傳播能力", 類似于facebook的like按鈕就是比較典型的代表, google目前自身的產(chǎn)品已經(jīng)可以獲取到很多類似的數(shù)據(jù)(目前還不包括+1的數(shù)據(jù)), 鏈接關(guān)系也可以包括在這里面, 雖然不是最有效的.答案 2:
很理論的東西:首先你這個(gè)文章的:標(biāo)題、段落的第一句、段落的末句、段落的順序。抓取到的內(nèi)容去和 數(shù)據(jù)庫(kù)中比較!看重復(fù)度?。?!一般地說(shuō) 差異化達(dá)到50%(有說(shuō)60%) 就算原創(chuàng)了(另稱偽原創(chuàng)成功)。答案 3:
看了答案,不是很靠譜.貼一個(gè)我知道的答案.... 所以如果你要讓機(jī)器知道哪一篇文章是原創(chuàng)還是轉(zhuǎn)載,你需要解決2個(gè)問(wèn)題. 1.把所有同一篇文章找出來(lái). 2.把抓到時(shí)間按照時(shí)間排序,最先抓來(lái)的認(rèn)為是原創(chuàng)的. 第2個(gè)問(wèn)題非常好解決,所以說(shuō)一下第1個(gè)問(wèn)題的解決方案. >我先把所有頁(yè)面中的文字提取,按照自然斷句,變成一個(gè)文檔.
我取出該網(wǎng)頁(yè)最長(zhǎng)的一個(gè)句子,作為簽名,認(rèn)為這個(gè)是這篇文章中一個(gè)特征.
我取出該網(wǎng)頁(yè)上次最長(zhǎng)句子作為簽名2,認(rèn)為是是第二個(gè)特征.
下一篇:劉強(qiáng)東在微博爆料投資京東15億美元的大佬是李彥宏,-的電子商務(wù)意在何為? 下一篇 【方向鍵 ( → )下一篇】
上一篇:您是怎么記憶 C++(或其他語(yǔ)言)函數(shù)標(biāo)準(zhǔn)庫(kù)或 W3C 標(biāo)準(zhǔn)的呢? 上一篇 【方向鍵 ( ← )上一篇】
快搜