数据采集工程师

性别:女

电话:188-8888-8888

生日:1998.05

邮箱:email@jianli1.com

所在地:广东省珠海市

基础信息

学历:本科

学校:南京理工大学

专业:服务科学与工程

身体状况:健康

求职意向

意向城市:广东省珠海市

教育经历

南京理工大学

2011.09 ~ 2015.06

服务科学与工程

本科

会所经营与管理、前厅服务与管理、会籍销售与管理、芳香疗法、SPA 技能实训、高尔夫运动技术、高尔夫礼仪与规则等。

、软件服务工程导论、服务业务分析与建模、软件服务使能技术、服务系统体系结构与设计、软件测试与质量保证、软件与社会、

Java 程序设计、Web 应用开发技术、移动计算技术、电子商务与互联网金融、云计算与软件服务、ERP 与供应链管理、人工智能

与智慧服务、服务管理。

工作经历

珠海格力电器股份有限公司

2015-2-1 ~ 2019-2-1

数据采集工程师

采用公司内部爬虫框架编写,开发爬虫脚本,负责对网页数据或文件进行下载,对下载的数据的关键数据进行匹配提取、清洗入

库。

维护脚本的增量式自动更新,对更新报错的脚本进行分类处理,对各个类型的 bug 做出相应的解决策略。

编写各类自动化脚本,如:实时监控队列消费信息,对于异常消费的队列做出应对策略自动对下载的文本数据进行标签的清洗,对

于文件类型的数据提取能够自动搜索关键字段或表格进行匹配。

维护公司框架脚本。

小型分布式爬虫框架。

架构模型:生产者/消费者模型。

采用引擎调度分发对象(request,response,item),根据不同的对象分发至不同的模块。

Request 对象通过生成模块将先进行 md5 去重再将 request 数据通过 rabbitmq 持久化存储。

消费模块从 rabbitmq 获取 response 对象,经过引擎调度分发至下载模块进行页面下载,通过解析获得 item 对象,item 经过引

擎到底分发至存储模块进行存储。

主要技术(库):aiohttp,asyncio,threading,multiprocessing,pika,中间件。

中国海洋石油有限公司

2019-3-1 ~ 2023-1-1

数据采集工程师

对大数据管理局和浙江台州市路桥区经济和信息化局的企业数据进行分析,建立子系统,实现对企业画像分析、经。

济运行分析、产业数据分析和目标管理的应用。

构建数字经信系统。

数字经信系统总共分为四层:数据采集层、数据管理与应用开发层、数据应用层。

数据采集层:接入数据采集系统采集到的数据,共享各部门的经济运行相关数据,归集协同办公系统数据及其他外。

数据管理和应用开发层:在系统中进行数据建模,对每个模型的数据模板进行维护和配置,通过 ETL 处理将数据导入。

MySQL 数据库中。

数据应用层:面向区级和镇街道级用户,实现企业画像、产业数据、经济运行三个场景的分析展示通过目标管理。

提供考核指标的维护以及跟踪指标的执行情况。

经信数据可视化分析。

企业画像分析:对工业企业数据的有效管理,可视化展示区域企业概貌、发展情况,实时动态的发现企业问题,提。

升工业企业管理能力。

经济运行分析:通过对区域工业经济运行分析,实时掌握经济状态,助推区域经济发展。

产业数据分析:通过对区域产业数据分析,快速了解区域发展现状,诊断地方业务布局,加快传统产业与工业互联。

网深度融合,推进区域产业升级。

江阴兴澄特钢数据分析治理项目。

将分布于不同业务系统中的数据通过 ETL 工具,再结合业务逻辑,建立一个研发辅助系统数据集。

基于 BI 的固定式报表和可视化需求满足。

基于 AI 实现历史数据匹配的特钢性能预测和工艺推荐。

项目经验

格力电器相关项目

2015-2-1 ~ 2019-2-1

珠海格力电器股份有限公司

数据采集工程师

根据用户需要,获取 58 同城商铺租赁和转让信息

职责:

使用 chrome 抓包并分析,获取 58 商铺西安地区主页

创建 scrapy 项目,实现翻页和爬取功能

该网站有反爬策略,使用隧道动态 ip 访问

使用 beautifulsoup 获取关键信息

将获取到的信息存入数据库,并生成一份 excel,放入指定目录

通过接口通知前端读取 excel 并阻塞,待前端读取完毕后,备份并删除 excel

使用 crontab 每日 1 点定时执行爬虫

海洋石油相关项目

2019-3-1 ~ 2023-1-1

中国海洋石油有限公司

数据采集工程师

使用爬虫技术,对商品价格、作者、店铺等信息进行爬取

责任描述

采用 Scrapy-redis 框架,实现增量式、断点续爬的爬虫效果,实现分布式爬虫,增加爬取效率

购买 ip 代理用以伪装自己的真实 ip

通过从 fakeuseragent 随机添加 useragent 破解该反爬手段

对所提取的部分数据进行处理,利用 Python 与 pymysql 的交互模块存入 mysql 数据库

电脑端无法获取所有数据,通过 fildder 抓包分析

实现技术:scrapy-redis、xpath、re、fiddler

技能列表

C++:一般

C:熟练

编程语言:良好

D 语言:精通

自我评价

– 熟悉 Python 编程;具有基本的基于 HIVE SQL 的数据分析能力;

– 对 Tensorflow, Keras, Sklearn 等框架具备一定的了解与经验积累;

具备大规模商业文本数据集(腾讯微保保险客服对话、腾讯广告朋友圈广告文案、汽车之家用户汽车评论)的文本挖掘、改写、意

图识别、标签提取的经验与实际上线产出;

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注