今天仅说下数据采集的一些基础东西,高手绕道,菜鸟认真的学,权当入门。
首先是内容的选择
网上世界千奇百怪,各个站长都千方百计地研究如何吸引眼珠。这做站如同做文章,不可能把所有的东西都收罗进来,要懂得取舍 再好的内容与你的网站主题也要符合,即使垃圾站(即无原创内容大部分是采集他人内容的站)初期阶段可能不予计较,但时间长了,垃圾站的目标仍是把垃圾做成精品,否则就死定了。
如何选择好的内容,我认为要做好以下几个方面:
①选择内容要你的站的主题符合的比较好。
比如做轴承站的可以采集轴承新闻、轴承技术什么的,也可以大一点采集机械制造方面的,但不要太偏离了,就不要选择美女图片这样的内容,虽然这类内容吸引人,但一方面给人造成的感觉不专业,另一方面也容易被百度K。 如果你觉得非采这个不可。可以搞个二级域名的方式专门建个相对独立的站,如pic.xxx.com,和主站相对脱节。
②采集的内容的格式尽量统一。
尽量选择些精品网站进行采集,采集内容的风格和格式要尽量统一,否则会显得不专业,显得太散乱,影响客户的访问情绪。
③不要一次性采集太多。在建站初期各个栏目适当采集几百条垫底就行了然后每天都采集一些,否则初期太多的流量对一个新站来说也无太大裨益,而且很危险,容易被百度K站。
④采集内容要选好关键字,做好网站的tag,不要见内容就收,否则真成垃圾了 查关键字在百度中的排位情况,是不是有可能冲击前几位,有一二个关键字就够了,这个是流量的保证,就是网站的SEO的一部分,最近才学的,不太懂哈。
⑤为避免百度K站,选择不同编码的站是个不错的建议,比如可以采集big5的繁体站转化成自己的gbk的,有能力的甚至可以通过机器翻译把英文的变成中文站,这样都是原创性的了,被百度K的可能性就是0。 我有一个客户把百度知识的东西通过翻译引擎直接做了个英文知识站。 招数千变,唯一的目标是有安全的流量。
⑥要采集的源站要有持续更新的能力,尽量不要采死站,呵呵, 一方面能经常采集,另一方面这样的站的信息有时效性,可保证你采集的内容新鲜。
其次讲下采集工具的选择
采集工具不下几十种,如何选择适当的工具要看各位的爱好,其实学好一二种采集工具就可以了。 有cms系统自带的如帝国cms自带的采集, 有专门的采集的软件如火车头、小蜜蜂、贴探小黑、守望、三人行、ET等等,下面简单介绍一下:
①火车头采集软件,这个是最早的采集的软件,也是大名鼎鼎的采集软件, 软件安装有点麻烦,软件采用.net 架构,不过也容易搞定。 字串8 软件的优点很多,规则制订也相对简单,可以制订整个站的规则,也可以本地入库同步发布到网站。 缺点是发布模块不容易找,而且济源网站建设公司难于开发,对新手来说很难发布成功。 因为作者近半年都没更新,bug比较多,最新的V3.2快出来了,还是值得期待的。
②小蜜蜂采集,这个可以和他的BBWPS--小蜜蜂商务网站门户系统整合使用,也可以单独用,需要本地装php环境,也半年没更新了 不过对国外的一些cms如joomla支持,还是不错的。刚才有问做英文站采集,用这个也南京网店设计是可以的
③贴探小黑 这个是收费的采集器,对新手来说还比较好用, 但规则制订感觉好别扭,比较好的解决了发布的问题,速度也很快,最新的4.0出来后作者可能会停止开发了 这个对论坛采集比较好,对网站的cms还不支持,还有不能多页采集,缺陷比较多。
④三人行 这个软件还是下了很多功夫的,界面有些粗糙,感觉不到位,有些作弊功能很不错,比如论坛同时在线、批量发贴等等 呵呵,平时很少用。由于作者的功利因素有很多不同名字的软件版本,功能基本一样,有些混乱。
⑤守望。这也是php的平台开发的,可直接安装在网站服务器上,直接采集到服务器上,这个比较好,免除了数据上传时间。
⑥ET。这个可谓后起之秀,比较好用,制订规则也简单灵活,资深网站建设但有的地方还不成熟。支持的系统还不多,不过潜力很大,新出的模拟提交,基本上绝大部分类型的采集都可做了。
以上是采集工具的介绍,哪种好用要看各位的偏好了。
采集用到的工具还包括抓包分析工具,如sniffer,wsockexpert等。
ASP的采集器
源代码分析工具,对于地址隐藏的网页用遨游自带的viewpage也挺好, 好象火车头3.2附带的新的源代码分析工具放出来了,对一些难采集的网站可以试试。
一般大家喜欢用2000/xp自带的记事本查看源代码,建议升级到vistia的记事本,支持繁体和框架,绝对好用更深一步的还要学习破解ajax,就里就不介绍了。 第三个方面我讲采集数据的加工。数据采集来固然可以直接发布到网上去,但经过加工效果会更好。 数据的加工包括去掉别人的广告,换上自己的广告,过滤掉一些外站的链接酒泉网站建设公司
数据格式的简繁转换及编码转换
网站优化SEO处理等等 这里要注意的问题是别人广告一定要过滤干净,否则自己得不到广告费,别人的GG帐户也不安全,反而也害了别人。 还有SEO处理不要过份,适可而止,否则只会起反作用。 更高层次的采集是把采集内容变成自己的原创,这个需要高手自编程序对数据进行处理。
目前为止还没见过这样的工具,不过有《疯狂作文》这样的软件出来,相信也不是做不到。
第四个方面是后续维护
这个后续维护也可以翻陈出新,把已采集的数据进行再加工,添加新的关键字,新瓶也可以装旧酒。
南京牧狼文化传媒有限公司简介:
牧狼传媒,牧者之心,狼者之性,以牧之谦卑宽容之心待人,以狼之团结无畏之性做事!
公司注册资金100万,主营众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放以及电商营销推广全案等相关业务,致力于为客户提供更有价值的服务,创造让用户满意的效果!
为百度官方及其大客户、苏宁易购、金山WPS秀堂、美的、创维家电、新东方在线、伊莱克斯、宝丽莱等国内国外知名品牌服务过,服务经验丰富!同时,公司也是南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位,可以为您提供更好的服务!
主营项目:众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放、竞价托管、网站优化、电商代运营等
合作客户:百度、苏宁易购、饿了么、美的、创维家电、新东方在线、宝丽莱、金山WPS秀堂、伊莱克斯
资质荣誉:百度商业服务市场2017年度最佳图片服务商、南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位、八戒通TOP服务商、"易拍即合杯"H5创意大赛"三等奖"。