<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>(无标题) &#187; 搜狗</title>
	<atom:link href="http://www.handleft.com/tag/%e6%90%9c%e7%8b%97/feed" rel="self" type="application/rss+xml" />
	<link>http://www.handleft.com</link>
	<description>—每个汉字都会说话—</description>
	<lastBuildDate>Tue, 17 Aug 2010 00:23:05 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
		<item>
		<title>清誉的代价——也说谷歌“输入法事件”</title>
		<link>http://www.handleft.com/1119</link>
		<comments>http://www.handleft.com/1119#comments</comments>
		<pubDate>Mon, 09 Apr 2007 16:02:00 +0000</pubDate>
		<dc:creator>左 手</dc:creator>
				<category><![CDATA[产品]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[搜狗]]></category>
		<category><![CDATA[李开复]]></category>
		<category><![CDATA[输入法]]></category>

		<guid isPermaLink="false">http://www.handleft.com/1119</guid>
		<description><![CDATA[前提我就不说了。这个事件上，谷歌丢人了。 搜狐和搜狗长脸了么？名誉会因此提高了么？使用搜狗输入法的人会增加么？ 据说崔瑾因为此事已经顶罪辞职了。那么真正的罪人是谁？ 是李开复么？那么是谁逼迫李开复做出越来越流氓的事情，是什么导致李开复的一个个承诺都不能实现？ 华商的外联主管梁锋伟的talk签名是：“Google放个屁都是香的，为什么？” 究竟是我们对谷歌的抄袭行为太宽容，还是太严厉？还是我们对其他公司的流氓行为太漠视，太姑息？ 诚信的代价很高，但是诚信的收益更高。 清誉得来不容易，清誉毁掉很容易。 百度、搜狗努力在洗白自己，谷歌为啥还要“不慎”将自己抹黑？ 是谷歌更流氓，还是百度搜狐搜狗更流氓？ 谷歌流氓了一把，却被真正的流氓用小混混的手法给缠上了？ 静观事态后续。 相关日志再见，李开复先生 (1)专访李开复:与Google共享未来 (5)信息鸿沟导致人种分化 (0)从司法公正的角度看冈萨雷斯的对开复案的判决 (0)谁在西安Buzz呢？ (9) © handleft for (无标题), 2007. &#124; Permalink &#124; No comment &#124; Add to del.icio.us Post tags: Google, 搜狗, 李开复, 输入法 Feed enhanced by Better Feed from Ozh]]></description>
			<content:encoded><![CDATA[<p>前提我就不说了。这个事件上，谷歌丢人了。</p>
<p>搜狐和搜狗长脸了么？名誉会因此提高了么？使用搜狗输入法的人会增加么？</p>
<p>据说崔瑾因<a href="http://www.17tech.com/news/8445.html" title="代李开复顶罪 谷歌公关经理崔瑾下课" target="_blank">为此事已经顶罪辞职</a>了。那么真正的罪人是谁？</p>
<p>是李开复么？那么是谁逼迫李开复做出越来越流氓的事情，是什么导致<a href="http://net.chinabyte.com/391/2606391.shtml" target="http://www.einit.com/_blank">李开复的一个个承诺</a>都不能实现？</p>
<p>华商的外联主管梁锋伟的talk签名是：“Google放个屁都是香的，为什么？”</p>
<p>究竟是我们对谷歌的抄袭行为太宽容，还是太严厉？还是我们对其他公司的流氓行为太漠视，太姑息？</p>
<p>诚信的代价很高，但是诚信的收益更高。</p>
<p>清誉得来不容易，清誉毁掉很容易。</p>
<p>百度、搜狗努力在洗白自己，谷歌为啥还要“不慎”将自己抹黑？</p>
<p>是谷歌更流氓，还是百度搜狐搜狗更流氓？</p>
<p>谷歌流氓了一把，却被真正的流氓用小混混的手法给缠上了？</p>
<p>静观事态后续。</p>
<h2  class="related_post_title">相关日志</h2><ul class="related_post"><li><a href="http://www.handleft.com/1793" title="再见，李开复先生">再见，李开复先生</a> (1)</li><li><a href="http://www.handleft.com/1460" title="专访李开复:与Google共享未来">专访李开复:与Google共享未来</a> (5)</li><li><a href="http://www.handleft.com/977" title="信息鸿沟导致人种分化">信息鸿沟导致人种分化</a> (0)</li><li><a href="http://www.handleft.com/959" title="从司法公正的角度看冈萨雷斯的对开复案的判决">从司法公正的角度看冈萨雷斯的对开复案的判决</a> (0)</li><li><a href="http://www.handleft.com/1867" title="谁在西安Buzz呢？">谁在西安Buzz呢？</a> (9)</li></ul><hr />
<p><small>© handleft for <a href="http://www.handleft.com">(无标题)</a>, 2007. |
<a href="http://www.handleft.com/1119">Permalink</a> |
<a href="http://www.handleft.com/1119#comments">No comment</a> |
Add to
<a href="http://del.icio.us/post?url=http://www.handleft.com/1119&title=清誉的代价——也说谷歌“输入法事件”">del.icio.us</a>
<br/>
Post tags: <a href="http://www.handleft.com/tag/google" rel="tag">Google</a>, <a href="http://www.handleft.com/tag/%e6%90%9c%e7%8b%97" rel="tag">搜狗</a>, <a href="http://www.handleft.com/tag/%e6%9d%8e%e5%bc%80%e5%a4%8d" rel="tag">李开复</a>, <a href="http://www.handleft.com/tag/%e8%be%93%e5%85%a5%e6%b3%95" rel="tag">输入法</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://www.handleft.com/1119/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>搜狗搜索的100亿网页数据从哪来</title>
		<link>http://www.handleft.com/1070</link>
		<comments>http://www.handleft.com/1070#comments</comments>
		<pubDate>Tue, 02 Jan 2007 14:23:00 +0000</pubDate>
		<dc:creator>左 手</dc:creator>
				<category><![CDATA[产品]]></category>
		<category><![CDATA[搜狗]]></category>
		<category><![CDATA[新浪]]></category>
		<category><![CDATA[网易]]></category>

		<guid isPermaLink="false">http://www.handleft.com/1070</guid>
		<description><![CDATA[几天不能上网，今天最刺激我眼球的并不是Google Reader终于恢复正常了，而是如下几个事情。 1，新浪改版了，不过更像网易了 2，搜狐旗下放出了加强版的3.0的搜狗，但是被新浪给挖苦了 爆料馆：搜狗搜索的100亿网页数据从哪来 http://www.sina.com.cn 2007年01月02日19:01 新浪科技 搜狗网页搜索3.0于2007年1月1日正式上线，号称首个百亿规模的中文搜索引擎，收录100亿网页。 打开SOGOU首页，“3.0”，“100亿”两组数字尤为显眼，看来SOGOU在拿抓取100亿页面来做文章，吸引众人眼光。但其所称的100亿数字，令眼镜蛇质疑，抓取的100亿页面质量怎么样，如果将一堆垃圾网站的页面抓来，不如不统计。 根据搜索研究3年的经验，眼镜蛇试用以前研究搜索的方法前去搜索了某些关键字，得到的结果令人惊讶。首先拿“搜索%D0%A1%CB%B5”当做关键字去搜索，得到了“1,463,786”个结果，根据前几十页显示，SOGOU抓取的几乎是互联网某些网站搜索结果的页面。比如第一名，抓的是百度相关搜索的文章。SOGOU本身是做搜索的，又去抓其他站的站内搜索，这样做是为了什么呢？原因之一，就是为了增加收录量，因为一个网站，站内搜索关键字可以去换，比如眼镜蛇在百度搜索音乐，SOGOU抓一次，眼镜蛇在百度搜索影视，SOGOU再抓一次，这样的话，搜索的次数越多，SOGOU抓的可能性越大，这种方法是SOGOU号称抓取百亿网页的其中之一。这种作法不会影响SOGOU的搜索质量，又同时给SOGOU增加了数据量，SOGOU在这点很聪明。 针对做弊网站，SOGOU也是照抓不误，百度针对做弊网站的作法是封杀，然而SOGOU几乎不封的，只是降权，这一点又为SOGOU在数据量上做了贡献。像GOOGLE上的做弊网站也很多，多数虽然不封杀，但不会拿抓取网页数作为搜索宣传的手段。 眼镜蛇又想到了个方法测试SOGOU抓取百亿页面的方法，就是利用几乎每篇文章中几乎出现的“com”，“的”等前去搜索，结果也令人失望，“com”词在SOGOU搜索中只找到“1,428,761,785”个结果。百度搜索“com”的结果个数为“100,000,000”，GOOGLE搜索“com”的结果个数为“628,000,000”，YAHOO中文搜索“com”的结果个数为“1,570,000,000”。在这个特别关键字上，百度，GOOGLE，YAHOO已经将此关键字的搜索结果个数处理了，SOGOU的数据应该是未处理的，其结果只有14亿多。很明显的看出，SOGOU网页抓取数据之多，但供检索的数量远没有100亿那么庞大。 眼镜蛇利用SOGOU的“比比看”试着搜索了一些热门关键字，发现SOGOU的技术的确大有进步，好些词的结果满意度已经超过了baidu与GOOGLE。网页搜索质量上去了，但也不能撒谎称自己拥有百亿搜索结果，用户关心的是搜索质量，不是搜索数量。搜索行业，2007又是残酷竞争的一年，SOGOU要想一统天下，下面就要看怎么从百度，GOOGLE中抢用户了。(新石团队：眼镜蛇) 文章来源：IT爆料馆 相关日志一个负责任的互联网 (1)学习网易好榜样 (4)好好学网易，天天看新闻（——兼说cnBeta） (2)网络编辑工作的含金量远超平面编辑 (0)新浪博客真不要脸(已更新) (6) © handleft for (无标题), 2007. &#124; Permalink &#124; No comment &#124; Add to del.icio.us Post tags: 搜狗, 新浪, 网易 Feed enhanced by Better Feed from Ozh]]></description>
			<content:encoded><![CDATA[<p>几天不能上网，今天最刺激我眼球的并不是Google Reader终于恢复正常了，而是如下几个事情。<br />
1，新浪改版了，不过更像网易了<br />
2，搜狐旗下放出了加强版的3.0的搜狗，但是被新浪给挖苦了</p>
<p><a href="http://tech.sina.com.cn/i/2007-01-02/19011317558.shtml">爆料馆：搜狗搜索的100亿网页数据从哪来</a></p>
<p>http://www.sina.com.cn</p>
<p>2007年01月02日19:01<br />
新浪科技</p>
<p>搜狗网页搜索3.0于2007年1月1日正式上线，号称首个百亿规模的中文搜索引擎，收录100亿网页。</p>
<p>打开SOGOU首页，“3.0”，“100亿”两组数字尤为显眼，看来SOGOU在拿抓取100亿页面来做文章，吸引众人眼光。但其所称的100亿数字，令眼镜蛇质疑，抓取的100亿页面质量怎么样，如果将一堆垃圾网站的页面抓来，不如不统计。</p>
<p>根据搜索研究3年的经验，眼镜蛇试用以前研究搜索的方法前去搜索了某些关键字，得到的结果令人惊讶。首先拿“搜索%D0%A1%CB%B5”当做关键字去搜索，得到了“1,463,786”个结果，根据前几十页显示，SOGOU抓取的几乎是互联网某些网站搜索结果的页面。比如第一名，抓的是百度相关搜索的文章。SOGOU本身是做搜索的，又去抓其他站的站内搜索，这样做是为了什么呢？原因之一，就是为了增加收录量，因为一个网站，站内搜索关键字可以去换，比如眼镜蛇在百度搜索音乐，SOGOU抓一次，眼镜蛇在百度搜索影视，SOGOU再抓一次，这样的话，搜索的次数越多，SOGOU抓的可能性越大，这种方法是SOGOU号称抓取百亿网页的其中之一。这种作法不会影响SOGOU的搜索质量，又同时给SOGOU增加了数据量，SOGOU在这点很聪明。</p>
<p>针对做弊网站，SOGOU也是照抓不误，百度针对做弊网站的作法是封杀，然而SOGOU几乎不封的，只是降权，这一点又为SOGOU在数据量上做了贡献。像GOOGLE上的做弊网站也很多，多数虽然不封杀，但不会拿抓取网页数作为搜索宣传的手段。</p>
<p>眼镜蛇又想到了个方法测试SOGOU抓取百亿页面的方法，就是利用几乎每篇文章中几乎出现的“com”，“的”等前去搜索，结果也令人失望，“com”词在SOGOU搜索中只找到“1,428,761,785”个结果。百度搜索“com”的结果个数为“100,000,000”，GOOGLE搜索“com”的结果个数为“628,000,000”，YAHOO中文搜索“com”的结果个数为“1,570,000,000”。在这个特别关键字上，百度，GOOGLE，YAHOO已经将此关键字的搜索结果个数处理了，SOGOU的数据应该是未处理的，其结果只有14亿多。很明显的看出，SOGOU网页抓取数据之多，但供检索的数量远没有100亿那么庞大。</p>
<p>眼镜蛇利用SOGOU的“比比看”试着搜索了一些热门关键字，发现SOGOU的技术的确大有进步，好些词的结果满意度已经超过了baidu与GOOGLE。网页搜索质量上去了，但也不能撒谎称自己拥有百亿搜索结果，用户关心的是搜索质量，不是搜索数量。搜索行业，2007又是残酷竞争的一年，SOGOU要想一统天下，下面就要看怎么从百度，GOOGLE中抢用户了。(新石团队：眼镜蛇)</p>
<p>文章来源：<a href="http://blog.sina.com.cn/u/4a60f29e010006i2">IT爆料馆</a></p>
<h2  class="related_post_title">相关日志</h2><ul class="related_post"><li><a href="http://www.handleft.com/1566" title="一个负责任的互联网">一个负责任的互联网</a> (1)</li><li><a href="http://www.handleft.com/1509" title="学习网易好榜样">学习网易好榜样</a> (4)</li><li><a href="http://www.handleft.com/1194" title="好好学网易，天天看新闻（——兼说cnBeta）">好好学网易，天天看新闻（——兼说cnBeta）</a> (2)</li><li><a href="http://www.handleft.com/1117" title="网络编辑工作的含金量远超平面编辑">网络编辑工作的含金量远超平面编辑</a> (0)</li><li><a href="http://www.handleft.com/1848" title="新浪博客真不要脸(已更新)">新浪博客真不要脸(已更新)</a> (6)</li></ul><hr />
<p><small>© handleft for <a href="http://www.handleft.com">(无标题)</a>, 2007. |
<a href="http://www.handleft.com/1070">Permalink</a> |
<a href="http://www.handleft.com/1070#comments">No comment</a> |
Add to
<a href="http://del.icio.us/post?url=http://www.handleft.com/1070&title=搜狗搜索的100亿网页数据从哪来">del.icio.us</a>
<br/>
Post tags: <a href="http://www.handleft.com/tag/%e6%90%9c%e7%8b%97" rel="tag">搜狗</a>, <a href="http://www.handleft.com/tag/%e6%96%b0%e6%b5%aa" rel="tag">新浪</a>, <a href="http://www.handleft.com/tag/%e7%bd%91%e6%98%93" rel="tag">网易</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://www.handleft.com/1070/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
