数据架构师

性别:女

电话:188-8888-8888

邮箱:email@jianli1.com

所在地:广东省珠海市

生日:1989.05

基础信息

学历:本科

学校:南京理工大学

专业:海洋信息工程

身体状况:健康

求职意向

意向城市:广东省珠海市

教育经历

南京理工大学

2011.09 ~ 2015.06

海洋信息工程

本科

信号与系统,通信原理,模拟电子线路、数字电子线路、计算机基础,单片机原理等基础课程水声技术、海洋遥感、海洋传感技术、

海洋目标探测、海洋通信等和海洋信息工程密切相关的课程。

、计算机基础,水声技术、海洋通信等和海洋信息工程密切相关的课程。

工作经历

中国能源建设股份有限公司

2015-2-1 ~ 2019-2-1

数据架构师

从零搭建大数据架构。

多年网站架构设计经验,多年 PHP 开发经验,熟练掌握 PHPMVC 框架,PHP 缓存技术、静态化设计方面的经验,Nginx,

Laravel,ZendFramework,Yii,Symfony,ThinkPHP,Doctrine,Xdebug,PHP-Fpm,Redis,APC,Memcache,

Smarty,Composer,Git,Github,正则表达式,设计模式,Json,XML,Vim,PEAR,CMS,PHPUnit,面向对象编程,系统

性能监测工具 Sar、测试工具 JMeter,运维系统 Zabbix,自动化运维工具 Ansible,邮件服务器 Postfix,前端缓存服务器

Varnish,熟悉大数据架构,分布式发布、订阅消息系统 Kafka,ZooKeeper,Hadoop,Hive,HBase,Canal,Logstash,

Kibana,Flume,搜索发动机 ElasticSearch。

熟练掌握 JavaScript,jQuery,Ajax,HTML+CSS 布局,HTML5,CSS3,熟悉兼容性测试,Vue.js,jQueryMobile,了解

Bower,Grunt,Nodejs,Npm,AngularJS,Bootstrap,Backbone.js,Underscore.js,RequireJS,Pjax,PhoneGap。

熟练掌握 Linux 系统操作,Linux 服务及安全,Redhat,Ubuntu,Shell,Awk,Sed,熟悉 TCP/IP,HTTP,DNS,LDAP,

SVN,NFS,SAMBA,LVS,RHCS,KickStart,PXE,LVM,RAID,SWAP,RPM,DPKG,OPENSSH,OPENVPN,PPTP,

DHCP,AUTOFS,DNS,POSTFIX,ARP,了解 CPU 性能、内存性能相关知识,I/O 性能、网络性能相关知识,进程间通信相关知

识,瓶颈分析,Linux 的启动流程机制,内核模块及硬件驱动流程,文件系统及底层结构,进程、日志,防火墙技术,系统恢复,企

业级虚拟化技术,服务器虚拟化,虚拟化商业应用,NAS 和 SANGFS2、OCFS2,共享存储文件系统,Linux 存储模式、SCSI 和光

纤信道。

熟练掌握各种 SQL 查询,MySQL 索引优化、查询优化和存储优化,MySQL 数据库复制,集群技术,性能调优,了解 Python,

Flask 框架,Vitualenv,Uwsgi,Pip,Jinja2,Setuptools,Ruby,Gem,Bundler,Rails,Capistrano,Rake,DSL。

熟悉 Java 开发,SpringBoot,Maven,多线程,注解,Service,Interceptor,Filter,Listener,代理,事务,JDBC,了解微服

务架构 SpringCloud,远程过程调用 Thrift,Docker,CASSSO。

熟悉 Android 开发,并行计算,内部类,事件处理,AsyncTask,Activity,ContentProvider,BroadcastReceiver,Service,

Fragment,UI,DisplayMetrics,Adapter,SQLite,APIToken,HTTP,Canvas,API 调用,网络编程,数据库编程,

ListView,多线程编程。

熟悉 iOS 开发,Objective-C 基础语法,OC 面向对象编程,C++,Foundation 框架,UIKit,iOS 高级编程,数组,字典,集合,

类的扩展,类目和协议,Objective-C 内存管理,文件管理,复制对象,归档和单例,KVC,KVO,谓词与通知。

东风汽车集团股份有限公司

数据架构师

2019-3-1 ~ 2023-1-1

 负责大数据环境,K8s 环境的构建与维护;

 负责项目工作落实,按照领导交办的时间在之前完成工作;

 协调小组成员分工,指导、分配、落实小组成员工作;

 参与产品的需求分析、需求评审,并设计技术架构

项目经验

能源建设相关项目

2015-2-1 ~ 2019-2-1

中国能源建设股份有限公司

数据架构师

项目概述:

主要完成电商大数据数仓环境搭建,埋点行为日志和业务数据采集、数仓搭建(ods、dwd(维度建模)、dws、dwt、ads)、数据可

视化、即席查询、集群监控、元数据管理和用户画像(为推荐系统做准备)

功能描述:

完成大数据数仓环境的搭建,主要框框架有:Flume、Kafka、Mysql、Sqoop、hadoop、Hive、Superse t、Hbase、Kylin、

Presto、Azkaban、Zabbix、Atlas;

业务采集模块:

a. 日志数据采集,flume-kafka-flume-hdfs:

flume(多台)通过 Taildir Source、Kafka Channel 完成从日志服务器上实时采集埋点日志数据到 Kafka 集群,并在 flume 端

通过双层拦截器完成数据基础 ETL(格式校验)和分类功能;

 通过flume 分类拦截器后的数据到 kafka 集群,完成分主题和消峰功能;

消费 flume 完成 kafka 不同主题数据到 hdfs 存储,采用 Kafka Source、File Channel、hdfs Sink,并完成按天分区和 LZO 压

缩;

b. 业务数据集采:mysql-sqoop-hdfs:

 采集mysql 数据,sqoop 根据业务不同采取全量、增量、变化及增量和固定表采集方式,完成按天分区、LZO 压缩及索引建立;

数仓的搭建:

a. 采用 hive、mysql、hadoop 完成数仓环境搭建;

b. 数据仓主要分五层:ods、dwd、dws、dwt、ads;

c. ods 层完成原始数据备份,保持数据原貌,采用 LZO 压缩(索引),按天分区;

d. dwd 层,遵循维度建模流程:业务过程-粒度-确认维度-确认事实建模

 完成事实表建模,主要有事务型事实表(增量)、周期型事实表(全量)、累加型事实表(增量及变化)和拉链表(增量及变化);

 完成维度表维度退化和建模,主要有商品维度、时间维度、地区维度等;

 采用LZO 压缩、parquet 列式存储、按天分区

 完成通过自定义UDF 和 UDTF 埋点行为数据解析;

e. dws 层,根据主题完成按天上卷汇总宽表的建立,为 dwt 层和 ads 层提供数据源,汇总每天数据,有分区;分析指标主要有设备

主题、会员主题、商品主题、地区主题等;

f. dwt 层,根据主题指标完成数仓建立日到当天的数据汇总,根据 dws 层数数据完成主题数据宽表建立,无分区;主题与 dws 层一

致,根据维度和分析需要增加分析指标;

g. ads 层,根据 dws 和 dwt 层数据,完成当天业务指标的分析,每天一条信息,为数据可视化提供数据;分析指标主要有漏斗分

析、商品销量排名,商品差评、商品收藏排名、商品退款率排名、每日新增设备、活跃设备数、流失用户数和留存率等;

Azkaban 资源调度:

a. 完成业务日志从 mysql-hdfs-ods-dwd-dws-dwt-ads-mysql,完成日志数据 hdfs-ods-dwd 全流程调度;

数据可视化;

a.通过 Azkaban 全流程调度数仓之后,数仓数据落地到报表数据库,通过开源 superset 对接报表数据库(mysql),完成数据的可视

化展示;

即席查询:

a. Kylin 即席查询完成多维数据分析 MOLAP:hive 数据仓(dwd)层-Kylin(Cube&Cuboid)-HBASE-solr-Zeppelin

集群管理

a.通过 Zabbix 可视化操作完成集群资源和数仓进程的监控预警、邮件通知功能。

Atlas hive 元数据管理

a. Atlas管理 hive 元数据,通过 kafka 采集 hive 元数据,Atlas core 完成三部分内容:消费 kafka 传输的元数据、类型转换、图

形生成;元数据保存在 HBASE,索引数据保存在 Solr;

东风汽车相关项目

2019-3-1 ~ 2023-1-1

东风汽车集团股份有限公司

数据架构师

为湖北省数字政府建设统一大数据平台,汇聚各厅局数据接入、标准化、治理,建设基础库(人口库、法人库)和专题库(扶贫、人

才引进),为上层业务系统(长江大保护、河湖治理、鄂汇办、互联网+监管、一网通办等)提供数据服务。

技术栈:hadoop+hbase+hive+mpp 数据库+api 网关+Nginx

技能列表

Hadoop:一般

Solr:熟练

Databases:良好

Spark:精通

自我评价

技术全面,创新意识,思路清晰,5 项专利,一项软件著作权,有很强的沟通能力和团队建设能力

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注