蜜桃无码视频,欧美日韩一=三道夲,国产精品午夜AV电影网免费看,aaa.www

<var id="h93vb"><form id="h93vb"><dfn id="h93vb"></dfn></form></var>

<rt id="h93vb"><delect id="h93vb"></delect></rt>

<rt id="h93vb"></rt>

歡迎來(lái)到常識(shí)詞典網(wǎng) ，一個(gè)專業(yè)的常識(shí)知識(shí)學(xué)習(xí)網(wǎng)站！

[ Ctrl + D 鍵 ]收藏本站

您所在的位置：首頁(yè) > 教育學(xué)習(xí) > 為什么

為什么

Google 如何判斷一篇文章是轉(zhuǎn)載還是原創(chuàng)？

分類: 為什么 常識(shí)詞典 編輯 : 常識(shí) 發(fā)布 : 04-01

閱讀 :420

Google 如何判斷一篇文章是轉(zhuǎn)載還是原創(chuàng)？如果兩篇文章完全一致，可以通過(guò)時(shí)間來(lái)做判斷。但如果僅對(duì)原文進(jìn)行微小修改呢？我最關(guān)心的是，這種修改大到什么程度，google就判定該文章來(lái)自于獨(dú)立源呢？這個(gè)問(wèn)題并非是問(wèn)google如何完美地解決了這個(gè)問(wèn)題（顯然這個(gè)問(wèn)題本身就是ill-defined，不存在完美解決方案）。這個(gè)問(wèn)題的探討價(jià)值是，google在試圖解決這個(gè)問(wèn)題的時(shí)候，用了何種方法。這其中有些方法本身，或者是繞過(guò)這些方法的后門，都是有思考價(jià)值的。.11 個(gè)答案

答案 1：

原創(chuàng)內(nèi)容識(shí)別是搜索引擎的難題之一,google在這方面做的明顯要好, 但和理想的情況還是有差距.以"談?wù)剷鴥r(jià)"這個(gè)query為例, google的結(jié)果已經(jīng)做的非常棒了google.-k/#-l=z--C...幾個(gè)可能的識(shí)別"原創(chuàng)"的方法:時(shí)間:直觀來(lái)想最重要的識(shí)別因子就是時(shí)間, 但對(duì)于google而言, 這個(gè)因子卻很難像我們想象的那樣有效. 可能的幾個(gè)參考時(shí)間:

搜索引擎收錄時(shí)間: 由于抓取系統(tǒng)的調(diào)度不同, 即使是google, 即使是用ping, 原創(chuàng)結(jié)果也不一定優(yōu)先被收錄(雖然在很多情況下, 已經(jīng)向這個(gè)方向靠攏了). 這是基于優(yōu)先級(jí)隊(duì)列的網(wǎng)頁(yè)抓取算法和機(jī)器抓取性能有限共同決定的. 第一時(shí)間新浪編輯轉(zhuǎn)載的內(nèi)容可能就比原創(chuàng)先收錄.

網(wǎng)頁(yè)上文章的生成時(shí)間: 拋開(kāi)完全不靠譜的服務(wù)器lastmodifytime, 網(wǎng)頁(yè)上本身就顯示有生成時(shí)間, 如果可以被識(shí)別, 也是有效的. 但并不是所有的網(wǎng)頁(yè)都有這個(gè)屬性,read.weiwu-ui/arc-ives... 就找不到有意義的時(shí)間. 而且即使存在, 對(duì)于這個(gè)由網(wǎng)頁(yè)生成者提供的時(shí)間, 是否可信也是一個(gè)問(wèn)題.

基本上是沒(méi)有所有網(wǎng)頁(yè)通用的有效時(shí)間因素, 可以被搜索引擎獲取到. 時(shí)間不準(zhǔn)確的話, 即使是完全相同的網(wǎng)頁(yè)內(nèi)容, 也無(wú)法判斷了. (判斷網(wǎng)頁(yè)是否微小改變, 由于時(shí)間不靠譜, 在原創(chuàng)問(wèn)題上就不是重要的因素, 就不展開(kāi)了. 從方法上看, 列溫斯頓編輯距離這些方法已經(jīng)是非常成熟有效的. 看起來(lái)google沒(méi)這么用)鏈接關(guān)系:在一個(gè)理想化的互聯(lián)網(wǎng)里面, 轉(zhuǎn)載方會(huì)給出原始出處, 鏈接關(guān)系就是比較靠譜的識(shí)別原創(chuàng)的方法. google可以順著鏈接關(guān)系, 找到最終的原始出處. 但目前來(lái)看, 這個(gè)方法的作用有限:

沒(méi)有專業(yè)精神的轉(zhuǎn)載者: 轉(zhuǎn)載不給出出處, ^C+^Y-. 簡(jiǎn)體中文互聯(lián)網(wǎng)里面幾乎所有的綜合性站點(diǎn), 都有一些編輯耍流氓不給出原始出處的現(xiàn)象, 甚至是剽竊別人的內(nèi)容當(dāng)做自己的原創(chuàng). 這種-和剽竊, 切斷了鏈接的傳播途徑(現(xiàn)在微博上的那些粉絲多的草根微博, 都是走-粘貼這個(gè)路數(shù)的貨色, 更不要說(shuō)采集站了). 搜索引擎識(shí)別不能.

沒(méi)有統(tǒng)一的出處: 對(duì)于一些urban legend或者笑話, 人類自己都搞不清楚源頭是什么, 甚至很多源頭都不在互聯(lián)網(wǎng)上. 鏈接關(guān)系也無(wú)法指向最終出處, 可能指向的只是可考的鏡像. 這類超出人類自身的問(wèn)題, 搜索引擎也沒(méi)能力.

傳播能力:目前看, google識(shí)別原創(chuàng)的最主要手段就是識(shí)別傳播能力. 根據(jù)meme理論傳播越廣的內(nèi)容其價(jià)值越高:en.-.org/wiki...其實(shí)這里換了概念, 把"原創(chuàng)"換成了"價(jià)值高". 這是一種對(duì)于識(shí)別"原創(chuàng)"困難的折中. 把找出"源頭"的工作, 交給了用戶的群體智慧. 網(wǎng)頁(yè)被用戶通過(guò)主動(dòng)的方式看到的越多, 那么他是"原創(chuàng)"的概率就越大. 把識(shí)別的工作, 交給了全體用戶來(lái)共同參與. 相當(dāng)于是我們找出了信息源(但有可能不是原創(chuàng)), 再把這個(gè)結(jié)果告訴google. 雖然可能不是真正的原創(chuàng), 但可能是最具影響力的結(jié)果.基于此我們經(jīng)?？吹? 對(duì)于同一篇內(nèi)容, 投稿在月光博客上的網(wǎng)頁(yè), 會(huì)比真正的原創(chuàng)網(wǎng)頁(yè)排名高.對(duì)于query: quora的創(chuàng)新, 知乎的土壤google的結(jié)果第一位的就是月光博客上的結(jié)果, 而真正的原創(chuàng)結(jié)果是第一頁(yè)找不到的.至于如何識(shí)別網(wǎng)頁(yè)的"傳播能力", 類似于facebook的like按鈕就是比較典型的代表, google目前自身的產(chǎn)品已經(jīng)可以獲取到很多類似的數(shù)據(jù)(目前還不包括+1的數(shù)據(jù)), 鏈接關(guān)系也可以包括在這里面, 雖然不是最有效的.

答案 2：

很理論的東西：首先你這個(gè)文章的：標(biāo)題、段落的第一句、段落的末句、段落的順序。抓取到的內(nèi)容去和數(shù)據(jù)庫(kù)中比較！看重復(fù)度?。?！一般地說(shuō) 差異化達(dá)到50%（有說(shuō)60%）就算原創(chuàng)了（另稱偽原創(chuàng)成功）。

答案 3：

看了答案,不是很靠譜.貼一個(gè)我知道的答案.... 所以如果你要讓機(jī)器知道哪一篇文章是原創(chuàng)還是轉(zhuǎn)載,你需要解決2個(gè)問(wèn)題. 1.把所有同一篇文章找出來(lái). 2.把抓到時(shí)間按照時(shí)間排序,最先抓來(lái)的認(rèn)為是原創(chuàng)的. 第2個(gè)問(wèn)題非常好解決,所以說(shuō)一下第1個(gè)問(wèn)題的解決方案. >

我先把所有頁(yè)面中的文字提取,按照自然斷句,變成一個(gè)文檔.

我取出該網(wǎng)頁(yè)最長(zhǎng)的一個(gè)句子,作為簽名,認(rèn)為這個(gè)是這篇文章中一個(gè)特征.

我取出該網(wǎng)頁(yè)上次最長(zhǎng)句子作為簽名2,認(rèn)為是是第二個(gè)特征.

標(biāo)簽 : 為什么 04-01

下一篇:劉強(qiáng)東在微博爆料投資京東15億美元的大佬是李彥宏，-的電子商務(wù)意在何為？下一篇 【方向鍵 ( → )下一篇】

上一篇:您是怎么記憶 C++（或其他語(yǔ)言）函數(shù)標(biāo)準(zhǔn)庫(kù)或 W3C 標(biāo)準(zhǔn)的呢？上一篇 【方向鍵 ( ← )上一篇】

欄目列表

外語(yǔ)學(xué)校認(rèn)證考試高考研究生留學(xué)百科為什么知道問(wèn)答百科知識(shí)校園安全職場(chǎng)

相關(guān)文章

如何判斷別人唱的歌是否走音？如何判斷信息的可信度？

最新文章

-團(tuán)購(gòu)存在的意義是什么？通過(guò)什么方式盈利？影響國(guó)內(nèi)支付普及應(yīng)用的障礙是什么？各國(guó)對(duì)公交車的行駛速度都有什么樣的規(guī)定 cpu溫度是不是太高了？ T-inkPad 無(wú)法啟動(dòng) WiFi，可能原因有哪些？中國(guó)人數(shù)最多的名字是哪個(gè)？（姓加名） Pat- 格外地費(fèi)-？買了一張京滬動(dòng)車的票，想改簽成翌日同價(jià)位富士康自殺的員工都是跳樓？家用無(wú)線帶貓路由換成 -V6 地址怎么訪問(wèn)

快搜

首頁(yè)
網(wǎng)站導(dǎo)航
快速搜索
頂部

在线看片国产日韩欧美亚洲| 亚洲日韩国产精品| 中文字幕乱码人妻精品| 国产剧情av免费网站| 国内老熟妇对白XXXXHD| 国产区一二区| 无码专区视频| 成人av电影天堂| 插大香蕉| 国产精品_国产精品_k频道w | 日韩国产麻豆| 丁香五香天堂综合小说| 欧美日韩∧v| 国产精品成人手机在线观看| 无码中文字幕精品1| 丝袜AV影院| 99国产精品久| 国产亚洲精品自在线亚洲情侣| 日韩一区二区三区无码| 一级毛片成人免费看免| 欧美人与性囗牲恔配动漫| www.日韩中文字幕| 香蕉娱乐亚洲综合| 熟妇人妻不卡中文字幕| 国内揄拍国产精品人妻网站| 91亚洲精品国产精品| 大香蕉一区二区视频| 精品亚洲女| 亚洲AV无码超清不卡在线电影| 91久久久无码精品亚洲日韩 | 久久夜色精品国产噜噜-老金影院国产精品无码免费看一区二区喷水 | 奇米亚洲一区二区三区| 亚洲制服丝袜av一区二区三| 伊人蕉中文| 毛茸茸老熟女一区二区视频| 自慰无码免费一区二区三区9 | 色鬼久久久久综合| 国产精品美女久久久久三级| 欧美日韩在线视频制服| 婷婷亚洲久| 丰满少妇A级毛片野外|

<li id="8swvk"><wbr id="8swvk"></wbr></li>

<rt id="8swvk"></rt>

<tt id="8swvk"><dl id="8swvk"><div id="8swvk"></div></dl></tt>

<rt id="8swvk"><delect id="8swvk"><small id="8swvk"></small></delect></rt>