1. 首页 > 民商法 > 交通事故

爬虫违法么?

爬虫到底违法吗这位爬虫工程师给出了答案

大家好,本期将为大家来采访一位爬虫工程师,与他相识是在一个技术号主群中,只有他怼了我的文章,所以也算不打不相识!他便是

小周码字

号主:Loco。

文章主要分为三部分,第一部分为Loco自述:简单讲述一下他是如何从大学生一步一步走到现在。第二部分为提问解答:猪哥收集了近100个问题,然后由Loco大佬自行选择回答,快看看你有没有被翻牌吧!第三部分是猪哥从Loco回答中提取的一些关键字,希望能加深大家的记忆。

我读的大学是个野鸡学校,虽说是一个计算机专业,但实际的课程内容很杂。CAD、3DMAX、Office全家桶之类的都会有,所以在校期间对编程方面的成长并不大,当时也就只有写个批量改文件名的工具这种水平。

毕业以后到目前为止也就在两家公司工作过,一家是上家公司,另一个是现在这家,总体路程还算顺利吧,没遇到过什么大的挫折,各种需求也能逼着自己成长。

我接触爬虫这方面的起因,其实是因为找实习,当时快毕业了嘛,要先找个实习锻炼锻炼。但是因为我认为我能做的方向比较多,也还没有想好到底往哪个方向发展比较好,

所以就开始看知乎的相关回答

,然后发现数据相关的好像都不错,爬虫这个方向看起来也挺有意思的,就边学边开始海投简历。

投着投着我就发现了一个问题,投简历这个事情太机械化了,能不能写个程序帮我自动投?我就可以腾出这部分时间来干点别的事情了,这样还能顺便练一练写爬虫的技术。

万幸的是,当时的拉勾、智联、实习僧、58等招聘网站的反爬基本没有,对于一个初学爬虫的人来说还是可以轻松地自己解决:

搜索->获取职位详情->投递简历

这个操作的。

于是,一个自动投简历的小工具就诞生了,虽然代码十分简陋,

完全就是用requests库以一个流程化的方式写下来的

,但已经足够达到我想要的效果了。在那之后,我每天就只需要等待面试通知和电话面试,发现有合适的就去面试一下就好了,节省了大量的时间用在搞项目上。

然后大概这么投了一个多星期吧,

中间面了十多个公司

,有大有小,但都是要么不太满意、要么对应方向的技术深度还不够,直到碰到了上家公司。那是一家创业公司,可能因为创始人是做技术出身的关系吧,公司氛围很不错,跟老板聊起来也很舒服,然后公司本身也是专门做爬虫相关产品的,所以就去了这家公司。

在这家公司的那段时间应该是我技术水平成长最快的时候了,因为每天做的事情就是写爬虫,

当时我们团队将应用商店排名前100的所有APP都“弄”了

。什么乱七八糟的问题都有碰到过,

然后因为团队里每个人有天赋的方向都不同,一边被需求逼着查各种资料、挑战自己,一边互相补充知识,成长速度就非常快了

从那离职以后我进了现在这家公司,目前做的主要就是区块链搜索引擎的数据收集。看似简单但实际还是很有挑战性的,因为区块链的特性会导致数据量非常大,而且区块链还不像传统互联网网站那样有个标准化的HTML,存在着各种麻烦的问题。所以对于我自己的技术水平增长速度也是有很大的影响的。

总结一下其实还是那句话,需求逼的。

在采访大佬的时候,我在朋友圈征集了大概100个问题,以下是大佬随机挑选的21个比较有代表性的问题进行解答。

注:以下“爬虫”均指“垂直爬虫”

可行,而且有一定的基础会很容易上手,至于深入的部分就看自己了。

可行,但我认为较难,因为爬虫做深了以后是需要你了解各种相关领域知识的,而你现在对这些领域的东西一无所知,甚至可能连编程都还不知道怎么开始,起点会比有基础的人低很多。

这个得看公司的,有些公司搞得都是些天天更新反爬的平台(比如工商信息相关的),那基本就是得一直盯着看会不会出问题,一不小心就会要加班。

这个问题看个人,因为爬虫技术可用的地方太多了,没法一个一个地都拿出来说。比如你想搞个自动签到的工具,这其实本质上就是爬虫;比如你想搞个自动回复设定内容的机器人,这其实本质上也是爬虫。

我觉得首先发请求不用说了吧?抓包工具的使用也不用说了吧?熟练掌握XPath、正则表达式这种解析工具也是基本的,然后JSON之类的传输格式至少要了解过长啥样吧,再就是JS逆向总得会一点吧(从只改变量名函数名混淆级别的代码中找出加密参数生成部分的程度)。差不多会这些以后,再自己做几个项目,应聘个初级爬虫工程师没啥问题。

垂直爬虫做到后面本质上就是逆向,你需要有良好的逆向思维方式,并且对一些安全领域的骚东西也有一定的了解,这样你才能游刃有余地处理高难度的反爬。

郑重声明:本文《爬虫违法么?》版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。