<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>读思客 &#187; Cygwin</title>
	<atom:link href="http://www.dusike.com/tag/cygwin/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.dusike.com</link>
	<description>蔡文卫电子商务创业亲身经历与实践的总结分享，确保真实可用。</description>
	<lastBuildDate>Sun, 05 Sep 2010 03:08:27 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.1</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>认识Cygwin、Nutch、Grub、Swish-e、Larbin、Lucene过程(我也能开发一个GOOGLE）</title>
		<link>http://www.dusike.com/cygwin-nutch-caiqi/</link>
		<comments>http://www.dusike.com/cygwin-nutch-caiqi/#comments</comments>
		<pubDate>Thu, 02 Apr 2009 12:32:01 +0000</pubDate>
		<dc:creator>LEO</dc:creator>
				<category><![CDATA[随笔技巧]]></category>
		<category><![CDATA[Cygwin]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[Grub]]></category>
		<category><![CDATA[Larbin]]></category>
		<category><![CDATA[Lucene]]></category>
		<category><![CDATA[Nutch]]></category>
		<category><![CDATA[Swish-e]]></category>

		<guid isPermaLink="false">http://www.dusike.com/?p=1083</guid>
		<description><![CDATA[由于业务需要，我需要寻找一个网站数据采集工具，这个采集工具就只需要完成一个工作，就是帮我到指定网站将指定格式的网址抓下来并保存。
经过了解，发现这个就是搜索引擎相关的东东，于是疯狂，百度了下。认识了Nutch、Grub、Swish-e、Larbin、Lucene等，这些都是业内知名的类似google、百度的搜索引擎，而且大部分是开源的。经过了解与比较（参考了Nutch 初体验Nutch 初体验）发现Nutch相对强大，
所以尝试安装玩玩，结果发现这个东东最好是安装在LINUX上，我的电脑上又没有，如果马上安装LINUX就会很烦，而且我还不怎么会安装，准备放弃的时候，找到了这个Nutch在Windows中安装之细解，这个文章中提到Cygwin，仔细一看这真是一个好东东，它可以让我在windows上玩linux,这真是一个学习linux,或者开发linux程序好的工具，虽然以前有听说过虚拟机也可以实现类似的功能，但是那样占据电脑的资源太多，搞得windows自己不好用了。
我兴奋的下载，安装cygwin，折腾了一个晚上，结果还是没有解决我的问题，原来配置来配置去还真烦&#8230;我无赖之下，决定花钱购买第三方工具，于是google一下网站数据采集工具，看到了火车头，网络神采，军犬等好几个，可能是由于名字原因我就先联系了网络神采，对方很热情，发来了演示版，我从他们网上找到帮助手册，边看边用，发现这个东东的N层导航功能就可以实现我的要求，真是那个高兴啊，一下子把大部分功能都试了一下，就是感觉界面小了点。。。由于其出色功能，也不在意这些了。印象较深的有分页探测功能，跨层读取数据等功能。我立马决定购买这个工具，问对方多少钱，对方报过来企业版8000元，突然感觉被泼了点凉水，太贵了吧，心里想。
于是我不舍的离开，去联系另外的工具，先是找到军犬，可是网上连试用版都找不到，再加上提交信息，加了QQ后，都没有人理我。心里想，太差了，什么公司，服务如何保证。
还有一个火车头，看起来不错，下载也试用了一下，不过，蛮难学的，还好他们工作人员比较积极，给我远程演示了，基本上掌握了使用。感觉下来，功能还蛮全，就是不易掌握。由于受先前影响，我直接了解价格，发现蛮便宜的，企业版才3000元。我又开始兴奋了，把里面功能都测试了一下，流程是走得通，可是这个程序只能探测2层深度，还有分页不能探测，虽然这两个功能可以依靠人工处理，但是心里有点不爽，由于考虑人家价格这么便宜，也就不在意了，继续使用&#8230;结果出现一个让我无法接受的两个问题，一是采集过程中会任务多时，会突然程序死了，弹出调试的界面，仔细找原因，好像与其数据存放空间ACCESS有关，还有是有非法规则，反正无法解决&#8230;说是要当心注意。二是自动更新不能把以前采集过的数据进行比对更新，只能将增加的数据抓来，不太理解这样的解释。
这下麻烦了，我都不知选择哪个，时间紧迫必须在这周之内确定，于是决定硬着头皮与网络神采谈谈价格，现在心里觉得人家物有所值，但是谁都想砍砍价，能节省点就节省点。整整在QQ上来来去去将近2个小时，与其说我们在谈价，还不如说是在朋友之间交流，对方这个人，非常不错。后来，他给了打9折，而且送我将近3000元价值的服务。这下我心里平衡多了，同时也很有成就感。
没有想到，这次公司安排我寻找采集工具，让我获益非浅&#8230;特别是哪几个开源搜索引擎，抽时间一定要好好研究一下，什么时候也搞出一个GOOGLE2，那时我就牛了,呵呵。

原创文章，转载请注明： 转载自亿赐客比较购物搜索网
本文链接地址: 认识Cygwin、Nutch、Grub、Swish-e、Larbin、Lucene过程(我也能开发一个GOOGLE）

]]></description>
			<content:encoded><![CDATA[<p>由于业务需要，我需要寻找一个网站数据采集工具，这个采集工具就只需要完成一个工作，就是帮我到指定网站将指定格式的网址抓下来并保存。</p>
<p>经过了解，发现这个就是搜索引擎相关的东东，于是疯狂，百度了下。认识了Nutch、Grub、Swish-e、Larbin、<strong>Lucene等，这些都是业内知名的类似google、百度的搜索引擎，而且大部分是开源的。经过了解与比较（参考了<a href="http://www.dbanotes.net/web/nutch.html">Nutch 初体验</a><a href="http://www.dbanotes.net/web/nutch.html">Nutch 初体验</a>）发现Nutch相对强大，</strong></p>
<p><strong>所以尝试安装玩玩，结果发现这个东东最好是安装在LINUX上，我的电脑上又没有，如果马上安装LINUX就会很烦，而且我还不怎么会安装，准备放弃的时候，找到了这个<a href="http://blog.csdn.net/zjzcl/archive/2006/02/01/590537.aspx">Nutch在Windows中安装之细解</a>，这个文章中提到Cygwin，仔细一看这真是一个好东东，它可以让我在windows上玩linux,这真是一个学习linux,或者开发linux程序好的工具，虽然以前有听说过虚拟机也可以实现类似的功能，但是那样占据电脑的资源太多，搞得windows自己不好用了。</strong></p>
<p><strong>我兴奋的下载，安装cygwin，折腾了一个晚上，结果还是没有解决我的问题，原来配置来配置去还真烦&#8230;我无赖之下，决定花钱购买第三方工具，于是google一下网站数据采集工具，看到了火车头，<a href="http://www.sensite.cn/">网络神采</a>，军犬等好几个，可能是由于名字原因我就先联系了网络神采，对方很热情，发来了演示版，我从他们网上找到帮助手册，边看边用，发现这个东东的N层导航功能就可以实现我的要求，真是那个高兴啊，一下子把大部分功能都试了一下，就是感觉界面小了点。。。由于其出色功能，也不在意这些了。印象较深的有分页探测功能，跨层读取数据等功能。我立马决定购买这个工具，问对方多少钱，对方报过来企业版8000元，突然感觉被泼了点凉水，太贵了吧，心里想。</strong></p>
<p><strong>于是我不舍的离开，去联系另外的工具，先是找到军犬，可是网上连试用版都找不到，再加上提交信息，加了QQ后，都没有人理我。心里想，太差了，什么公司，服务如何保证。</strong></p>
<p><strong>还有一个火车头，看起来不错，下载也试用了一下，不过，蛮难学的，还好他们工作人员比较积极，给我远程演示了，基本上掌握了使用。感觉下来，功能还蛮全，就是不易掌握。由于受先前影响，我直接了解价格，发现蛮便宜的，企业版才3000元。我又开始兴奋了，把里面功能都测试了一下，流程是走得通，可是这个程序只能探测2层深度，还有分页不能探测，虽然这两个功能可以依靠人工处理，但是心里有点不爽，由于考虑人家价格这么便宜，也就不在意了，继续使用&#8230;结果出现一个让我无法接受的两个问题，一是采集过程中会任务多时，会突然程序死了，弹出调试的界面，仔细找原因，好像与其数据存放空间ACCESS有关，还有是有非法规则，反正无法解决&#8230;说是要当心注意。二是自动更新不能把以前采集过的数据进行比对更新，只能将增加的数据抓来，不太理解这样的解释。</strong></p>
<p><strong>这下麻烦了，我都不知选择哪个，时间紧迫必须在这周之内确定，于是决定硬着头皮与网络神采谈谈价格，现在心里觉得人家物有所值，但是谁都想砍砍价，能节省点就节省点。整整在QQ上来来去去将近2个小时，与其说我们在谈价，还不如说是在朋友之间交流，对方这个人，非常不错。后来，他给了打9折，而且送我将近3000元价值的服务。这下我心里平衡多了，同时也很有成就感。</strong></p>
<p><strong>没有想到，这次公司安排我寻找采集工具，让我获益非浅&#8230;特别是哪几个开源搜索引擎，抽时间一定要好好研究一下，什么时候也搞出一个GOOGLE2，那时我就牛了,呵呵。</strong>
<div style="margin-top: 15px; font-style: italic">
<p><strong>原创文章，转载请注明：</strong> 转载自<a href="http://www.yicike.com/">亿赐客比较购物搜索网</a></p>
<p><strong>本文链接地址:</strong> <a href="http://www.dusike.com/cygwin-nutch-caiqi/">认识Cygwin、Nutch、Grub、Swish-e、Larbin、Lucene过程(我也能开发一个GOOGLE）</a></p>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.dusike.com/cygwin-nutch-caiqi/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
