爬虫开发工程师
性别:女
电话:188-8888-8888
生日:1995.05
邮箱:email@jianli1.com 所在地:广东省珠海市
基础信息
教育经历
北京林业大学
教育技术学
2014.09 ~ 2018.06
本科
学历:本科
学校:北京林业大学
专业:教育技术学
身体状况:健康
主修课程:中外文化史、文学概论、社会学研究、美学原理、管理学通
论、科学研究方法、现代汉语、中外名著选读、自然与人文、科学与人
文、教育技术学、教学系统设计、计算机教育基础、网络教育应用、远
距离教育、电视教材设计与制作、教育技术研究方法、教育传播学。
求职意向
工作经历
意向城市:广东省珠海市
中国中铁股份有限公司
2017-1-1 ~ 2020-1-1
爬虫开发工程师
对于搜索引擎的反扒机制进行分析,采集三大搜索引擎数据,并且
技能列表
分析 url 抽取特征获取有用 url。
ython 爬取页面数据,在通过 HtmlUnit 渲染分析页面。
网吧广告系统与上报数据处理。
写了一个 nodetcp 服务器。
MongoDB
爬虫
,下发定时广告。
eclipse
REDIS
,与网吧客户端长连接处理定时报上来的数据。
,在数据处理完成之后存入数据库。
通过 cluster 多进程充分利用服务器新能处理并发。
通过队列 async 缓解并发。
pringboot+react 搭建管理系统。
查看客户端传上了的数据。
定时统计数据。
,定期处理数据。
自我评价
一本计算机科班毕业,四年的 python 开发经
验,三年的数据采集和爬虫开发经验
熟练使用 requests、scrapy、httpx、aiohttp
等爬虫框架,对 scrapy 源码有过深入理解
熟悉 html、dom 树、javascript、css、ajax、
xpath 等前端知识
熟悉 Mysql、Mongodb、redis 等主流数据库
的操作和配置
对于 git、svn 等版本管理工具,有丰富的使用
经验,注重项目的工程规范以及代码的封装
性、可复用性,具备良好的编程习惯
华夏幸福基业股份有限公司
爬虫开发工程师
2020-2-1 ~ 2022-12-1
优化蜘蛛,加入智能网络进行分类等技术。
负责公司项目功能开发,测试以及部署工作。
在公司主要负责对客户感兴趣的美股上市公司旗下网站,根据数百
家投资商和券顾问反馈结果进行需求分析、项目模型设计与搭建。
负责日常数据分析,包括推荐系统和交易报表等模块的产品规划工
作。
项目经验
中铁股份相关项目
2017-1-1 ~ 2020-1-1
中国中铁股份有限公司
爬虫开发工程师
在授信流程中,用户授权提供各大电商平台的账号信息,爬虫通过
代码模拟登陆用户账号,爬取账号下的信息包括:用户基本信息、
银行卡信息、历史订单信息、物流信息、商品信息、团购信息、积
分信息等,保存 MongoDB,然后根据具体需求进行数据清洗保
存 MySQL,提供给风控后台进行风险管控,最终完成授信提供用
户相应的消费额度。
构建爬虫框架:编写爬虫基类,实现获取代理、爬取、数据保存入
库、异常处理、重爬等逻辑,不同平台继承基类实现统一调度
搭建 Django 爬虫管理平台:对各个电商网站数据爬取情况分站点展示,按照 session 对每个爬虫请求进行管理,提供测试功能通过
页面展示的登陆表单填写账号密码等信息点击登陆触发爬虫进行测试;提供查询功能查看每个 session 的爬取请求和最终爬取数据;
提供重爬功能支持页面点击手动重爬;提供统计功能可以按照日期和各种爬取状态为维度统计爬取数量和爬取成功率。
搭建 Django 验证码识别平台:对于需要验证码识别的网站,收集样本并进行标注,通过深度学习 CNN 等算法进行模型训练,然后
将训练好的模型放到 Django 项目中,提供接口给爬虫平台调用
华夏幸福基业相关项目
华夏幸福基业股份有限公司
2020-2-1 ~ 2022-12-1
爬虫开发工程师
根据公司的业务需求,对网络上各个平台的金融数据,股票信息,进行爬取,为公司提供大量有效数据,进行数据分析,技术支持。
使用技术:Python,NumPy,Pandas, threading,gevent,requests
技术要点:
使用 Python 第三方库 requests 爬取页面。
模拟各种浏览器去拿到页面信息 html。
启用多线程,协程并发抓取网页信息,提高爬取的效率。