职位描述
职位概述:
作为高级数据工程师/ETL工程师,您将在设计、开发和优化数据处理系统方面发挥关键作用,以支持组织的数据计划。您在SQL、大数据和云方面的专业知识对于构建强大的ETL管道至关重要,这些管道将原始数据转化为可执行的洞察。您将与跨职能团队合作,确保数据的准确性、可访问性和决策价值。
职责:
1. 设计与开发ETL流程:
- 使用各类批处理/流式处理工具设计和实施ETL流程,从各种数据源提取、转换和加载数据到云。
- 与利益相关者协作,收集需求并确保ETL解决方案满足业务需求。
2. 数据管道优化:
- 优化数据管道的性能、可扩展性和可靠性,确保高效的数据处理工作流。
- 监控并排查ETL流程问题,主动解决瓶颈和故障。
3. 数据集成与管理:
- 集成来自不同来源的数据(包括数据库、API和平面文件),确保数据质量和一致性。
- 在云中管理和维护数据存储解决方案(如BigQuery、Cloud Storage),以支持分析和报告。
4.GCP Dataflow开发:
- 编写基于Apache Beam的Dataflow作业,用于数据提取、转换和分析,确保***性能和准确性。
- 与数据分析师和数据科学家协作,为分析和报告准备数据。
6. 自动化与监控:
- 使用Apache Airflow或Cloud Composer等工具实现ETL工作流的自动化,提高效率并减少人工干预。
- 设置监控和告警机制,确保数据管道的健康运行并满足SLA要求。
7. 数据治理与安全:
- 应用数据治理***实践,确保符合行业法规(如GDPR、HIPAA)和内部政策。
- 与安全团队合作,实施数据保护措施并解决潜在漏洞。
8. 文档与知识共享:
- 编写ETL流程、数据模型和架构文档,促进知识共享和新团队成员快速上手。
- 组织培训和研讨会,分享专业知识并在团队内推广***实践。
任职要求:
- 教育背景:
- 计算机科学、信息系统或相关领域的学士学位。
- 经验:
- 至少5年数据工程或ETL开发行业经验,重点关注Data Stage和GCP。
- 有设计和实施ETL解决方案的经验,包括数据建模、数据仓库和SQL开发。
- 技术技能:
- 熟悉云服务(如BigQuery、Dataflow、Cloud Storage、Pub/Sub)及其在数据工程中的应用。
- 有基于云的解决方案经验,尤其是GCP,持有云认证者优先。
- 具备批处理和流式处理的大数据经验,熟悉大数据生态系统(如Hadoop、HBase、Hive、MapReduce、Kafka、Flink、Spark等)。
- 熟悉Java和Python在云/大数据平台上的数据操作。
- 分析能力:
- 具备出色的解决问题能力和对细节的高度关注。
- 能够分析复杂数据集并提取有意义的洞察。