爬虫开发工程师
性别:女
电话:188-8888-8888
生日:1982.05
邮箱:email@jianli1.com 所在地:广东省珠海市
基础信息
学历:本科
学校:重庆大学
专业:区块链工程
身体状况:健康
求职意向
意向城市:广东省珠海市
教育经历
重庆大学
区块链工程
2017.09 ~ 2021.06
本科
主修课程:区块链原理与应用、区块链与数字资产、区块链技术原理与开发实战、区块链与创新创业等、区块链原理、共识算法开发、
智能合约开发、区块链应用开发、区块链算法、区块链平台开发、区块链虚拟机。
工作经历
中国太平洋保险(集团)股份有限公司
爬虫开发工程师
2021-2-1 ~ 2022-2-1
2022-3-1 ~ 2023-1-1
参与网络爬虫系统的设计与开发。
定期爬取指定网站数据,满足业务需要的数据抓取。
负责产品所需数据网站的信息抓取、清洗等日常工作。
江西铜业股份有限公司
爬虫开发工程师
参与 0-1 项目,负责产品业务流程梳理和设计、原型图绘制及 prd 输出。
大数据选址行业领跑企业,主打智慧物流服务。
主要负责对客户感兴趣的美股上市公司旗下网站,进行爬虫程序开发。
针对境外社交媒体,提供创业中需要的英文技术支持。
项目经验
太平洋保险相关项目
2021-2-1 ~ 2022-2-1
中国太平洋保险(集团)股份有限公司
爬虫开发工程师
做视频维权。将客户正版视频录入微盾系统,系统爬虫根据客户视频详情去互联网上采集相识视频,作为可疑线索。由系统通过帧
切片,标题,描述,演员等描述信息打分匹配做初步筛选。最终由人工确定侵权与否,最后由市场部与法务部采取诉讼措施。
负责视频线索爬虫模块,相识度打分模块。主要使用:jieba,UIautomator2
打分模块:根据视频标题描述信息通过结巴分词才分出主要词语与爬取数据信息对比,取不同权重值,最终得出相识评分。
APP 端爬虫模块:Uiautomator2、mitmdump 页面控制,数据包过滤。爬取热门短视频 APP 如:抖音,快手。各种 IPTV。
web 端爬虫模块:requests,scrapy。爬取策略 1:通过页面分析,找出 Json 数据 API 接口,通过伪装请求头,随机 IP 代理发送模
拟请求,拿到数据信息。爬取策略 2、全站扫描,通过主页入口获取所有 url 子链接,过滤广告等无用链接,再通过子链接进一步回
去页面上的全部链接,讲链接哈希值存入 Redis 以达到去重。
主要网站有:bibi,优酷,腾讯视频,爱奇艺等。
铜业相关项目
2022-3-1 ~ 2023-1-1
江西铜业股份有限公司
爬虫开发工程师
基于 scrapy + redis + splash + mongodb 定制化开发微博爬虫管理系统,公众号:真我数字资产管家
基于 requests + mysql + redis 微信爬虫定制化开发
百度贴吧爬虫 用于冠状病毒舆情反诈
新浪新闻,凤凰网等一些新闻网站。
基于开源框架 wx 设计的爬虫管理集合系统
技能列表
Hadoop:一般
爬虫:熟练
REDIS:良好
MongoDB:精通
自我评价
8 年软件开发经验,熟悉银行信贷业务,具有较强的团队管理能力。
211 重点大学毕业,有较强的电脑操作能力和网络编程分析、优化建模经验。