一对一免费咨询: 13913005726 025-66045668

最近想做个技术型的网站,不知道用什么cms来做,在网上搜索了一大堆,看到织梦的采集功能还不错,我也在想啊,做一个站如果所有的文章都需要站长一个一个的加,那不是要累死啊,所以就选着了织梦。

还好自己有点基础,弄了一天就基本弄懂织梦的操作流程了,申请域名、空间,上传程序。忙得是不亦乐乎,好了,开始采集文章了。好高兴,一下就有了2000多篇文章。高兴的打开来瞧瞧,哇,突然吓了一跳,发现一个文章一看就只有一段没有完整,打开源原址一看,原来有分页,在网上找了N久,还是没有结果,自己摸索摸索吧,搞了一天一夜几乎没有睡觉,我差点都没有信心了,想着就是采集的文章只有一半,别人怎么看啊,都不想做了,也累了,还是好好睡一觉吧。

也许是老天看我太辛苦了吧,刚想睡觉,突然我一下睡意全无,我太兴奋了,我看到了,看到了分页被我采集了。好了,说了这么多,还是开始进入正题了。直接看图。如果看不懂请打开源网址,查看源文件,和我的教程比较。开始选着左边的采集,然后打开采集节点管理,添加新节点,选着普通文章。1、文章列表页采集节点名称:自己根据你的网站目录和采集内容结合起来。网址:http://webdesign.chinaitlab.com/List_1399_(*).html 是有规则的网址列表。如果有不规则追加就好了。http://webdesign.chinaitlab.com/List_1399.html如果只有一页或几页没有规则就直接写在下面手工指定网址就好了。

文章列表匹配规则。注意要多看几页找出相同的,列表页大体相同,但有些有点小变化,所以要找出几页的共同html代码。

区域开始的html :

以下为引用的内容:
TBODY TR TD width="74%" height="796" align=left vAlign=topBR table cellSpacing=0 cellPadding=0 align=center border=0 tr区域结束的html :/tr tr td class=zhi12 colSpan=2BR

建议写上筛选,一般写必须包含,这样准确点:chinaitlab.com/flashsl

保存进入下一步设置。以看到下面的图为准。

3、分页设置预览网址可以更改。选择有分页的页面来预览,当然最好多预览几页,主要是和前面一样代码可能有小变化,选着相同的html代码http://webdesign.chinaitlab.com/flashsl/775579.html分页匹配规则这里只要做过一次就不难了。

看我的代码 ,请和源网址,查看源文件对比。

以下为引用的内容:
p align='center'bfont color='red'[内容]/b/pdiv align=right style="margin:3px 0;"[内容]为我们需要的内容,这个我想大家都知道了同理做好文章标题:(标题有两个地方有,当然选简单的个)B class=zhi25FONT color=#003399BRBR/FONT/BB class=zhi25FONT color=#003399[内容]/FONT/Bbr文章作者:IMG href="http://www.skinhelp.net/hangzhou/" title="杭州网站建设公司" target="_blank">杭州网站建设公司 src="http://www.chinaitlab.com/cms/images/Author.gif" _fcksavedurl=""http://www.chinaitlab.com/cms/images/Author.gif"" width=11[内容]IMG src="http://webdesign.chinaitlab.com/images/c3.gif" width=14

文章来源:IMG src="http://webdesign.chinaitlab.com/images/c1.gif" _fcksavedurl=""http://webdesign.chinaitlab.com/images/c1.gif"" width=17[内容]IMG src="http://webdesign.chinaitlab.com/images/c2.gif" width=12

这里有一个a href='http://www.chinaitlab.com/ShowCopyFrom.asp?ChannelID=1049&SourceName=中国教程网'中国教程网/a(但是在我测试的有些里面又没有,就是直接就是如 中国教程网 )所以有些就采集不出来,我只有写远点所以需要一个过滤规则,就是去掉不要的。规则是在需要的时候才有用,没有a/a的时候就没有用。下面的代码就是去掉a /a标签保留中间内容。

你可以直接点击常用规则选着超链接看哈有什么区别。

以下为引用的内容:
{dede:trim replace=""}a([^]*)沈阳网站建设公司{/dede:trim}{dede:trim replace=""}/a{/dede:trim}文章内容:进入网络咨询平台/strong/a strongspan class="style1" ◆/span/strongbr BR class=zhi14[内容]span style="border:1px dashed #cccccc; margin:3px;"

同样的需要过滤规则,你可以先不写规则看哈,有什么区别就知道规则有什么用了。规则一定要根据实际文章来写。

以下为引用的内容:
{dede:trim replace=""}style([^]*)(.*)/style{/dede:trim}{dede:trim replace=""}div([^]*){/dede:trim}{dede:trim replace=""}/div{/dede:trim}{dede:trim replace=""}SPAN([^]*){/dede:trim}{dede:trim replace=""}/SPAN{/dede:trim}{dede:trim replace=""}a([^]*){/dede:trim}{dede:trim replace=""}/a{/dede:trim}{dede:trim replace=""}/pp align='center'b(.*)/b/p{/dede:trim}

这一句我多说哈,主要作用是去掉后面的分页的文字。我开始也考虑把分页内容排除在文章内容外面,但是有些文章又没有分页代码,所以在文章的结马鞍山网站建设公司尾html不好写,所以我写远点然后用规则去掉分页文字 (同样的如果不懂先不加这条,比较哈就知道了)

{dede:trim replace=""}font([^]*){/dede:trim}{dede:trim replace=""}/font{/dede:trim}分页采集成功没有可以看有没有一个{副标题#e#},还有看哈最后一页采集到没有就知道。

中间也有

作者:轻松学IThttp://www.qsxit.cn


 


 南京牧狼文化传媒有限公司简介:


      牧狼传媒,牧者之心,狼者之性,以牧之谦卑宽容之心待人,以狼之团结无畏之性做事!


  公司注册资金100万,主营众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放以及电商营销推广全案等相关业务,致力于为客户提供更有价值的服务,创造让用户满意的效果!


  为百度官方及其大客户、苏宁易购、金山WPS秀堂、美的、创维家电、新东方在线、伊莱克斯、宝丽莱等国内国外知名品牌服务过,服务经验丰富!同时,公司也是南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位,可以为您提供更好的服务!


  主营项目:众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放、竞价托管、网站优化、电商代运营等


  合作客户:百度、苏宁易购、饿了么、美的、创维家电、新东方在线、宝丽莱、金山WPS秀堂、伊莱克斯


  资质荣誉:百度商业服务市场2017年度最佳图片服务商、南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位、八戒通TOP服务商、"易拍即合杯"H5创意大赛"三等奖"。



致力于为客户创造更多价值
13913005726 025-66045668
需求提交
电话咨询
在线咨询