
打开火车头采集器,点击【新建】创建一个新任务,填写一个任务名,设置采集网址规则,分别设置列表页采集规则和列表页所在的文章页规则,分为以下两个步骤。
步骤1:添加起始网址,点击【添加】,选择批量/多页,在地址格式设置需要采集的网页链接,点击【添加】和【完成】即可。此步骤目的是确立有多少个栏目分页链接。

采集网页链接技巧说明:首先确定要采集的网页栏目页,分别查看栏目分页1、分页2和分页3链接规律,对比后会发现分页2和分页3链接很像,只有2和3变化了(分页1其实也是如此,为了SEO格式一般做了隐藏,所以分页1和栏目首页链接一致)可以分析是按照等差数列排列,其实绝大多数的网站栏目页分页都是等差数列来排列的,包括尹华峰博客也是如此。
因此,在填写规则是选择等差数列,在地址格式处填写分页2的链接,将变化的数字用(*)代替,根据栏目分页的多少设置项数即可。火车头采集器能采
步骤2:多级网址获取,点击【添加】,选择网址获取选项,添加提取网址的规则,使用熟练后建议使用结果网址过滤功能,将需要包含的网址和不必包含的网址写进去,可以测试一下规则是否填写正确,然后保存即可。火车头采集器能采此步骤目的是确立每个栏目下的文章页链接。

多级网址获取技巧说明:我们要获取的是该栏目下的文章页链接,去原网页查看栏目分页的源代码,在该源码页找到第一篇文章页链接的位置,然后在上面选取一小段通用代码,一定是每个栏目页都会出现的代码,通常的表现形式会带有list或者article的代码。
设置采集内容规则,可以在典型页面处填写一篇文章页链接进行测试,分别设置标题采集规则和内容采集规则,也分为两个步骤。

步骤a:双击【标题】标签,一般网页的标题是

使用墨汁,蓝黑墨水和碳素墨水,不使用纯蓝,红色墨水. 第三节 公文写作步骤与方法 一,公文写作的步骤: 公文写作的步骤: 1)明确发文主旨 ①公文的中心内容是什么子②根据公文内容,准备采用什么文种③要明确公文发送范围和阅读对象④明确 发文的具体要求 2)收集有关材料 ①收集,阅读和研究有关的文件材料②深入下去,收集有关的实际材料 收集有关材料要求:真实,典型, 适用,时效 3)拟出写作提纲先写什么,后写什么,分几个段落,几层意思 拟出写作提纲 4)认真起草正文(导语,主体,结束语) 认真起草正文 5)反复检查修改 二,正文起草步骤 正文起草步骤: 正文起草步骤 1)把握公文主题,选好用好材料。页面停留时间并不是指一个页面的停留时间越长,这个页面在用户端的表现就越好它是一个相对概念,所以我们需要从用户需求的视点来优化页面,并供给更好更有针对性的内容来解决用户需求.比方相同一个要害词"怎么发掘要害词",有a,b,c三个页面,a页面的正文内容只要文字,b页面的正文内容供给了文字介绍+图片,而c页面的正文内容供给文字介绍+图片+视频,a,b,c三个页面用相同的文字和不同的组合方式来满意同一个要害词的用户需求.。1、网站基本设施,导航目录设置好,url使用静态可以加速文章收录,四处一词定位一定要准,即标题title、keywords、 description标签、页面正文、锚文本内链,围绕这四点进行优化,标题是网站的核心、keywords、description是网站外衣,这段 时间用处好像不是很大了,页面正文网站的实质,内容里面图片alt标签、h1标签、加粗strong标签需要注意,内链锚文本是贯穿整个网站的节点,布置的好可以事半功倍,。

发布内容设置,勾选需要启用的发布方式,保存即可,然后在任务列表处右键任务名,点击【开始任务】等待采集完成。

注,火车头采集器发布内容分为两个方式,方式一是web发布到网站,需要添加发布配置。新手不建议直接发布到网站,建议勾选第二个保存为本地。至于文件模板可以【查看默认模板】,然后选择TXT格式即可。

火车头采集器功能十分强大,除了采集文章还可以采集视频等,火车头采集器使用规则并不难,根本不需要懂什么编程之类的语言,只需能看懂一些常用的简单代码即可,操作一两次基本可以完全掌握,是一款非常棒的SEO工具。作为网站优化人员,我们采集文章后可以对内容进行修改和调整,让内容更加完善,同时也可以大大提高SEO人员的工作效率。
如何设置FTP文件上传根目录和文件下载路径等?
(1)采集到图片并下载
据处理--文件下载--勾选下载图片,其他不做任何设置。


下载如下:

(2)分析图片格式,设置文件保存目录,文件保存格式,文件链接地址前缀
此时需要您在您的网站上正常手工发布一条包含图片的数据,看下图片格式。
例如其中图片路径是:******.com/images/201510/1.jpg
下面我们来将其拆分为头+中+尾三部分
头:******.com/是网站域名;
中:images/201510/是文件路径,201510是年月的意思
尾:1.jpg是文件名和后缀
所以
其他设置--文件图片下载--文件链接地址前缀:设置为******.com/

内容采集规则--数据处理--文件下载--文件保存目录:设置为images/201510/
请按照如下操作: 将欲下载的文件重命名,把它的后缀名改成 flv(带.视频格式)保存(也可以直接在文件名末尾加上.flv) 下载分享文件 要先保存到自己的百度网盘。其用途依系统或应用而定binhex:苹果的一种编码格式bmp:windows或os/2位图文件book:adobe framemaker book文件box:lotus notes的邮箱文件bpl:borlard delph 4打包库bps:百度输入法皮肤文件bsp:quake图形文件bun:cakewalk 声音捆绑文件c:c代码文件c0l:台风波形文件cab:microsoft压缩档案文件cad:softdek的drafix cad文件cam:casio照相机格式cap:压缩音乐文件格式cas:逗号分开的ascⅡ文件ccb:visual basic动态按钮配置文件cch:corel图表文件cco:cyberchat数据文件cct:macromedia director shockwave投影cda:cd音频轨道cdf:microsoft频道定义格式文件cdi:philip的高密盘交互格式cdm:visual dbase自定义数据模块文件cdr:coreldraw绘图文件。如图二如图二三、在“打印服务器属性”上,把创建新格式前面的小方框打上,表格名内自己定义一个纸张名称,在格式描述中定义好纸张的尺寸,点击保存格式,最后点击确定。
如下图:

此时我们需要在绿色字体前加 \ 做转义,年月做替换,故是下图设置效果:

(3)确定FTP的路径
用其他的FTP工具看我们的图片存储路径,比如显示为 /www/******/images/201510/ 那么

那么采集器FTP文件上传根目录,这里写成这样/www/******/就OK 了,如下图:


注意:不要重复的把/images/201510/ 写上,
因为在内容采集规则--数据处理--文件下载--文件保存目录 设置里,我们已经定义了路径。
软件会自动创建对应文件夹,并识别发布。
所以 亲们,不要写重复了哦。
(4)测试看效果
设置完成后,我们测试看下效果:

这样就说明设置好了,FTP上传测试需要正式运行规则时生效。
没有正确获取表的自增ID号?
答:出现这种情况,是你在模块里使用联动表.什么是联动表呢?很多cms、论坛等系统在入库时考虑到性能原因会将一部分小数据字段存于一张表,另一 部分大数据字段存于另一张表,如:phpcms系统的文章频道:有phpcms_article_1存储articleid,标题,关键词,作者等字段, 而phpcms_article_data_1存储内容字段,并通过articleid关联起来,在每插入article_1时获取到的文章ID,我们使 用[文章编号:表名]这样的标签来获取,这里表名就是phpcms_article_1,phpcms_是一个可以更改的前缀,用标签 数据表前缀 来替换它,得到获取主表ID的方法就是:[文章编号:数据表前缀article_1].需要注意的是"表数据表前缀article_1"里需要有一个自增 的字段.如果没有自动增长的字段,程序就会获取错误,[文章编号:数据表前缀article_1]里就不是获得的插入"数据表前缀article_1"的 文章ID.另一个常见的错误是你将"数据表前缀article_1"写错了,比如写成不存在的"数据表前缀article_2".这样也是获取不到真实的 ID的.所以出错时,一定要仔细检查.
发表测试成功,但就是实际发布时显示成功却没文章?
答:也有多种可能,一是模块成功标识码不唯一,也就是发布成功失败都是一样的标识代码;另一种是实际发布成功了,但模块默认的是未审核的,所以得先到网站审核的地址去审核;三也有可能是因为火车连续不断的post数据,被防火墙或是服务器的防火墙给拦截了,请关了防火墙试下。还有一种是登陆信息失效了,比如网站一段时间不操作会自动退出,而在实际发布前有相当一些时间了。所以原来获得的登陆信息就失效了。
未找到任何可发布的内容?
答:这个是程序在本地里找不到未标记为未发的记录。这种情况是将所有数据已发布过了,或是在任务栏目里没有选发内容 。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/ruanjian/article-98306-1.html
难道俄在叙行动是怕美国吗
有童年有梦想有希望也需要坚持