分类
无分类

最常见6大防采集套路及解决方法(建议收藏)

什么是防采集?
用大白话来说,就是我们想利用工具采集某个网站的数据(前提当然是公开合法数据),但网站不想给你采集而设置的技术阻挡措施。

网站常见的防采集套路有哪些?
 

防采套路1:输入验证码框验证

采集难度:★☆☆☆☆

常见网站:搜狗微信

在采集某些网站过程中,爪子们是不是经常会遇到这样的情况,要求你输入验证码,否则就卡住进行不下去?

对的,这是网站最常用且最基础的防采措施之一,它要求你必须你手动输入验证码里的数字和字母,才能继续看到更多信息或者进行下一步,以此来判断你是机器人还是真人。

防采套路2:滑动拼图进行验证

采集难度:★★☆☆☆

常见网站:拉勾、B站

验证码防采套路升级版,也是网站最常用来验证当前浏览用户是机器人还是人工的方式之一。

它要求你必须滑动拼图到它指定的位置,才能通过验证进行下一步操作。

防采套路3:登录验证

采集难度:★★★☆☆

常见网站:新浪微博、新榜

这类网站通常需要登录才能看到更丰富的信息,否则只会展现非常有限的内容。放在八爪鱼采集器里,只要一启动,这类网站就立即弹出登录窗口,才能进行下一步,有时候还会出现在采集的过程当中。如果不懂的如何设置登录流程的爪子,很快会提醒“采集终止”。

防采套路4:数据加密

采集难度:★★★★☆

常见网站:大众点评

有些网站通过对数据加密进行防采集。如大众点评(上图),我们在网页上看到的内容是这家餐厅的“地址”,但我们打开源代码看,这段文字被已经被加密分离,这会导致什么结果?

这将导致即便你将它采集下来,文字也是乱码或支离破碎的,无法整合成一段完整的文字。

防采套路5:反馈虚假数据

采集难度:★★★★★

常见网站:携程网

最近看到一个携程开发写的帖子,关于他们是如何给爬虫反馈“假数据”的。看完觉得携程太“可怕了”!

当你发现辛辛苦苦采集下来的数据居然是假的,请问你心累不心累?!所谓道高一尺,魔高一丈,遇到这种给你“投毒”的网站就请绕道吧,除非你想到更好的破解方法!

防采套路6:禁止访问

采集难度:★★★★★

常见网站:个别网站

小八目前还没怎么遇到过这种情况。当然,我们没事也不会故意“以身试法”,去试探网站的防采底线。

这种情况,主要还是看网站的防采机制设计,如果触发了,通常的结果就是全面封锁和禁止。比如封你的账号、封你的IP地址。一旦被封锁,网站会自动给你错误页面或无法让你正常浏览。

几种最容易触发防采集的情况

1、采集速度过快、频次过高
嗯?这个用户怎么会1分钟浏览几十个页面呢?而且还是一天24小时不休息?有问题,我要去查查!啊,绝对是机器,封掉~!

采集速度过快、频次过快很容易引起对方网站注意,对方人员很容易就识别出你是机器在爬取它的内容,不是人类。毕竟正常人是无法像机器人那样不休不眠地高速运转。

2、采集数据量过大
当你速度和频次上来了,你采集的数据量将会很庞大,小八曾遇到爪子一天采集几百万条数据的情况,如果对方官网防采严格,则容易触发防采集机制。

3、一直使用同一个IP或账户
一旦对方网站发现你的IP/账户为机器爬虫,那么很有可能你的IP/账户就会被列入他们的黑名单,以后不允许你访问或者给你展示一个错误页面,让你无从下手。

针对防采集八爪鱼推出了一系列智能防封解决方法!
解决方法1:自动识别输入验证码
八爪鱼提供验证码识别控件,目前支持自动识别8种类型智能识别,包括字母、数字、汉字,还包括混合算数计算!

解决方法2:自动滑动拼图验证
遇到滑块?别担心,八爪鱼支持自动识别滑块验证,并且让机器自动拖动到指定位置,网站验证妥妥滴。

八爪鱼自动通过滑块验证

解决方法3:设置自动登录
八爪鱼提供以下2种登录模式:

1)文本+点击登录

在八爪鱼里设计登录流程,在采集过程中八爪鱼将自动输入用户和密码进行登录(PS,八爪鱼不会获取任何用户个人隐私)

2)Cookie登录

在八爪鱼中进行登录,通过记住登录后的Cookie,下次直接以登录后的状态打开网页进行采集。

 
解决方法4:放慢采集速度
1)Ajax加载

AJAX:延时加载、异步更新的一种脚本技术。简单来说就是,我们可以通过Ajax技术让网页加载的时间更长一些(可以设置0-30秒),让浏览速度变慢一点点避免查封。

2)执行前等待

执行前等待是指在进行采集操作之前,八爪鱼会自动默认等待一段时间,确保要采集的数据已经加载出来。这个方法同样适用于防采比较严格的网站,通过放慢采集速度来躲避反爬虫的追踪。

解决方案5:优质代理IP

八爪鱼提供了优质的代理IP池,在采集过程中支持智能定时切换IP,避免同个IP采集被网站追踪封锁。
————————————————
版权声明:本文为CSDN博主「BAZHUAYUdata」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/BAZHUAYUdata/article/details/88843263

分类
无分类

CDN NGINX防止CC攻击 防采集 宝塔面板可用 及识别CDN真实访问者IP并屏蔽思路

CC 攻击和采集都是同个IP发起大量访问请求,这个会造成大量请求拥堵,导致服务器资源耗尽,CC攻击主要针对特定服务接口,属于实现 DoS 攻击的一种方式。

如果没有套上CDN,那其实防御思路非常简单,识别出访问量大的IP,直接用服务器的iptable防火墙封禁IP就行了,但是如果使用CDN,那所有访客都是通过CDN连接我们的服务器,这种情况下,服务器封禁IP的话,只能封到CDN的IP,无法阻止CDN后面的真实访客访问,对这部分有攻击行为的访客,只能通过CDN的防火墙,导入IP黑名单方式来屏蔽。

虽然服务器级别的封禁IP,在CDN下有难度,但是通过NGINX还是可以识别到单独的访问进程,通过识别出CDN后的真实IP访问,在处理这部分访问的时候,直接转给他502页面,不进行后续网页输出就行。

如果你服务器没有启用CDN,那可以参考这个文章,使用SHELL脚本+iptable封禁IP https://www.bnxb.com/shell/27520.html

说一下NGINX 流控,有两种方式:

limit_req_zone:通过“漏桶”算法限制每个 IP 发起的请求频率。

limit_conn_zone:限制每个 IP 发起的连接数。

实践配置

一般NGINX 部分

配置error_log  /www/wwwlogs/nginx_error.log  error;

这样才能正确显示到被封禁的错误记录出来个FAIL2BAN使用

然后在 http 部分中配置:

 map $http_x_forwarded_for  $clientRealIp
{
    ""    $remote_addr; 
    ~^(?P<firstAddr>[0-9.]+),?.*$    $firstAddr;
}
limit_req_zone $clientRealIp zone=sym:10m rate=5r/s;
limit_conn_zone $clientRealIp zone=conn_sym:10m;

然后在需要流控的站点的 location 部分配置:

limit_req zone=sym burst=5;
limit_conn conn_sym 10;

宝塔安装的NGINX按下面配置

Nginx管理-配置修改

先将

error_log  /www/wwwlogs/nginx_error.log  crit;

改成

error_log  /www/wwwlogs/nginx_error.log  error;

然后在http部分

include proxy.conf;下面增加

map $http_x_forwarded_for  $clientRealIp
{
    ""    $remote_addr; 
    ~^(?P<firstAddr>[0-9.]+),?.*$    $firstAddr;
}


limit_conn_zone $binary_remote_addr zone=perip:10m;

改成

limit_conn_zone $clientRealIp zone=perip:10m;

这样才能针对使用代理IP刷你的站的人的真实IP进行计数,达到每秒多少个就封禁访问

然后到需要进行防御的网站点设置-流量限制

这里启用流量限制,并将单IP并发数进行限制,一般如果网站页面不复杂设置为10就行。

接下来重启 NGINX 后当有超流客户端请求时将记录在 www/wwwroot/nginx_error.log(不是宝塔面板的话,NGINX默认错误日志在 /var/log/nginx/error.log) 中看到类似记录:

2018/04/27 14:25:27 [error] 6307#0: *1472746 limiting connections by zone “perip”, client: 182.161.35.139, server: 104.153.102.68, request: “GET /index.php?10=8 HTTP/1.1”

此时请求已经被 NGINX 限流。

分类
无分类

行业细分领域赚钱的三个标准

创业圈每年都可以创造神话,但我认为创业者不仅需要关注成功的案例,还需要关注这些创业故事背后对你的启发,能否对你的创业和致富之路有一点帮助!

e508bebccd854acc859d17d6fb0bf91b

1 做小指甲钳身价10个亿

小小指甲钳,大多数人可能不会注意到这个小东西会成为一个大事业!1989年,梁伯强无意中看到一篇文章,主要是关于指甲钳的。花了一些时间了解指甲钳后,他发现一个小指甲钳实际上每年有60亿的全球市场,那时,所有公司都在技术上发展,没有人想做这样的小生意!

于是他开始创业,专门从事指甲钳的生产,在短短的几年时间里,他从一位前工厂人到成功的企业家,一直居世界前三位之列,创造了数亿人民币的产值,成为中国最大生产指甲钳的品牌!

就像现在的创业一样,不要只看大行业,集团大公司肯定会进入去做;单个的创业者是很难在大行业中占住位置,无非是凑数而已,感觉在蹭风口,实际上是在浪费时间!因为这种可能性太低了,与其如此,不如去找细分小领域,更容易获得成功!

5c97985002e24db38bd7e83a955be7a3

细分领域赚钱三个标准

什么品类才是细分?那细分行业肯定有一些特点和标准,这样你才能去考量,哪行业适合,哪些不符合这个标准!

1 钢需求

钢需求就是离不开这个东西,必须使用它;就像上面的手指甲一样,你长长了是不是要去剪?这就是刚需求,如果您选择的品类有太多代替品或可要可不要,那这个品类就没有什么机会,一定是人必须要的,哪怕不是人人都需要!

2 高利润

往往越是冷门行业越赚钱,为什么呢?没有竞争,用户知道的越少,市场上也没有多少可比较的产品,不像热门行业,类似配置的手机有100个不同的价格,使得消费者很难做出选择,当许多产品竞争到一定程度时,他们只会利用优惠降价来吸引消费者,此时,利润越来越低!

3 有复购

复购就是重复消费,一个产品有没有复购很重要,为什么很多人进军化妆品行业?因为复购率超级高,客户一旦相信你和你的产品,会跟你一直买,短的也就是3年或5年,要是长的客户,可能会跟你购买10年或更长时间,这意味着什么?你如果有100个这个的长期客户,你可以躺在家里发货赚钱,不用去做营销和开发新客户,也能活的很滋润,是不是?要是没有复购率的产品呢?永远在不断开发新客户,这个人力成本和资源成本,是不是无限大?如果你找的品类符合这3个条件!ok,你成功的可能性会非常高!

分类
管理 财务

国庆节请假或加班,10月份工资该怎么算?

根据安排,今年国庆节10月1日至7日放假调休,共7天。9月29日(星期日)、10月12日(星期六)上班。很多HR在算工资的时候又该头痛了!

10月份应该出勤18天,加上国庆节法定假日有21天。那么算薪资的时候实际出勤算21天,还是18天呢?法定假日是否算出勤?

日薪加倍,是按照21.75相除,还是按照18相除计算呢?

今天,小儒就和大家仔细说一说遇上节假日的时候薪酬到底该怎么算?

1

10月份薪资按多少天算?

按现行劳动法规,每周两天双休不计入薪酬计算天数,法定节假日可计入薪酬计算天数。

即按月计薪的依然按21.75算。

年计薪日:365-104(每周2天双休)=261天

月计薪天数、日工资、小时工资的折算方法为:日工资:月工资收入÷月计薪天数小时工资:月工资收入÷(月计薪天数×8小时)

月计薪天数:(365天-104天)÷12月=21.75天(不扣除11天的法定节假日)

2

国庆节加班工资怎么算?

《劳动法》第四十四条列举了几种用人单位应当支付高于劳动者正常工作时间的工资报酬的情形:

安排劳动者延长时间的,支付不低于工资的150%的工资报酬;

休息日安排劳动者工作又不能安排补休的,支付不低于工资的200%的工资报酬;

法定休假日安排劳动者工作的,支付不低于工资的300%的工资报酬。

按照国务院放假规定,今年国庆节从10月1日至10月7日,共放假7天。

其中,10月1日至3日是法定假日,10月4日至7日是双休日调休。因此,劳动者在前三天法定假日上班,用人单位应该按照日工资的300%支付加班工资,这笔费用不得以调休来抵销。

后四天用人单位安排劳动者加班,可以选择给劳动者安排补休或者按照不低于劳动者本人日工资的200%支付加班工资。

根据《北京市工资支付规定》,用人单位在10月1日至3日这3天安排劳动者加班的,应按照不低于劳动者本人日或小时工资的300%另行支付加班工资;

10月4日、5日、6日、7日作为公休日或公休日的调休时间,在此期间用人单位安排劳动者加班的,可以选择给劳动者安排补休而不支付加班工资。如果不给补休,则应当按照不低于劳动者本人日或小时工资的200%支付加班工资。

实行月工资制的用人单位在将劳动者月工资折算为日或小时工资时,日工资以月计薪天数21.75天进行折算,小时工资在日工资基础上除以8小时进行折算。

因此,今年长假期间的加班工资计算方法为:

法定节假日加班工资(3倍工资)=月工资基数÷21.75天×300%×加班天数;

公休日加班工资(2倍工资)=月工资基数÷21.75天×200%×加班天数。

每小时加班工资=日加班工资÷8

附:所谓工资基数,一种是按照劳动合同约定的劳动者本人工资标准确定;

一种是劳动合同没有约定的,按照集体合同约定的加班工资基数确定;

还有一种是劳动合同、集体合同均未约定的,按照劳动者本人正常劳动应得的工资确定。同时,加班工资基数不得低于最低工资标准。

3

有节假日的月份工资怎么算?

以10月为例,假如小儒的月薪5000元,在全勤、缺勤、加班三种情况下,HR该如何正确的计算工资:

情况1:全勤,无加班、无缺勤

情况2:无加班,缺勤1天

情况3:无缺勤,国庆期间加班

无加班,无缺勤的情况,薪资怎么算?那不用算,小儒的工资肯定是满薪,5000元!

没有加班,还缺勤1天,工资怎么算呢?

工资=5000÷21.75×(21.75-1)=4770.11元

按照实际工作日计薪算:工资=5000÷21×20=4761.90元。

算法不同,略有差异,你心里有数就行。

在加班的情况下,薪资该怎么算呢?

如果儒思安排小儒在10月1日至3日期间加班1天,那小儒的加班工资就应该为:5000(元)÷21.75(天)×300%×1(天)=689.66(元),如果这3天全部加班,加班工资将达到2068.97元。

如果儒思安排小儒在10月4日至7日加班1天且不能补休,小儒的加班工资应为:5000(元)÷21.75(天)×200%×1(天)=459.78(元),如果这4天全部加班,加班工资达到1839.12元。

这样算来,如果小儒在国庆这7天一直按照正常工作时间加班,一天不休的话,可以拿到的加班费就高达3908.09元,相当于17天的日工资。

通常情况下,一些单位会在节日期间给员工发红包或过节费等以示奖励,但红包是一种福利,加班费则是对劳动者放弃法定假日休息的一种补偿,红包不能冲抵加班费。