Asset 14

Tổng quan khoá học

Khóa học giành cho kỹ sư xử lý dữ liệu nắm được kiến thức về Dataflow để nâng cao quá trình xử lý dữ liệu ứng dụng. Từ những kiến thức nền tảng, bạn sẽ nắm được cách Apache Beam và Dataflow hoạt động với nhau để đáp ứng nhu cầu xử lý dữ liệu tránh rủi ro lock-in và triển khai pipeline bao gồm cách chuyển đổi logic doanh nghiệp thành xử lý dữ liệu ứng dụng bằng cách chạy Dataflow. Khóa học tập trung vào cách vận hành, ôn tập các phần quan trọng trong khóa học để vận hành dữ liệu ứng dụng trên Dataflow bao gồm giám sát, khắc phục sự cố, kiểm tra độ tin cậy của ứng dụng.

Thời gian: 24 giờ

Asset 2
Mục tiêu khóa học

Sau khi học xong khóa học, học viên sẽ nắm được các kiến thức như sau:

  • Chứng minh cách Apache Beam và Dataflow hoạt động cùng nhau đáp ứng nhu cầu trong quy trình xử lý dữ liệu của doanh nghiệp.
  • Tóm gọn lợi ích của Beam Portability Framework và khả năng của nó cho các Data pipeline
  • Khả năng Shuffle và Steaming Engine, cho việc batch và stream pipeline tương ứng và tối đa hiệu xuất.
  • Khả năng Flexible Recourse Scheduleing để tiết kiệm chi phí hiệu xuất
  • Lựa chọn kết hợp của IAM cho phép sử dụng Dataflow
  • Triển khai best practices cho việc bảo mật môi trường xử lý dữ liệu
  • Chọn lựa và điều chỉnh I/O cho Dataflow pipeline
  • Sử dụng schemas để đơn giản hóa Heam code và cải thiện hiệu xuất pipeline
  • Phát triển Beam pipeline sử dụng SQL và DataFrames
  • Giám sát, khắc phục sự cố, kiểm tra CI/CD trên Dataflow pipelines
Asset 4
Đối tượng học viên
  • Data Engineer, Data Analytics và Data Scientist muốn phát triển kỹ năng xử lý dữ liệu
Yêu cầu học viên
Asset 6

Nội dung khoá học

01

Introduction

+
Introduce the course objectives.
+
Demonstrate how Apache Beam and Dataflow work together to fulfill your organization’s data processing needs.

02

Beam Portability

+
Summarize the benefits of the Beam Portability Framework.
+
Customize the data processing environment of your pipeline using custom containers.
+
Review use cases for cross-language transformations.
+
Enable the Portability framework for your Dataflow pipelines.

03

Separating Compute and Storage with Dataflow

+
Enable Shuffle and Streaming Engine, for batch and streaming pipelines respectively, for maximum performance.
+
Enable Flexible Resource Scheduling for more cost-efficient performance.

04

IAM, Quotas, and Permissions

+
Select the right combination of IAM permissions for your Dataflow job.
+
Determine your capacity needs by inspecting the relevant quotas for your Dataflow jobs.

05

Security

+
Select your zonal data processing strategy using Dataflow, depending on your data locality needs.
+
Implement best practices for a secure data processing environmen.

06

Beam Concepts Review

+
Review main Apache Beam concepts (Pipeline, PCollections, PTransforms, Runner, reading/writing, Utility PTransforms, side inputs), bundles and DoFn Lifecycle.

07

Windows, Watermarks, Trigger

+
Implement logic to handle your late data.
+
Review different types of triggers.
+
Review core streaming concepts (unbounded PCollections, windows).

08

Sources and Sinks

+
Write the I/O of your choice for your Dataflow pipeline.
+
Tune your source/sink transformation for maximum performance.
+
Create custom sources and sinks using SDF.

09

Schemas

+
Introduce schemas, which give developers a way to express structured data in their Beam pipelines.
+
Use schemas to simplify your Beam code and improve the performance of your pipeline.

10

State and Timers

+
Identify use cases for state and timer API implementations.
+
Select the right type of state and timers for your pipeline.

11

Best Practices

+
Implement best practices for Dataflow pipelines.

12

Dataflow SQL and DataFrames

+
Develop a Beam pipeline using SQL and DataFrames.

13

Beam Notebooks

+
Prototype your pipeline in Python using Beam notebooks.
+
Use Beam magics to control the behavior of source recording in your notebook.
+
Launch a job to Dataflow from a notebook.

14

Monitoring

+
Navigate the Dataflow Job Details UI.
+
Interpret Job Metrics charts to diagnose pipeline regressions.
+
Set alerts on Dataflow jobs using Cloud Monitoring.

15

Logging and Error Reporting

+
Use the Dataflow logs and diagnostics widgets to troubleshoot pipeline issues.

16

Troubleshooting and Debug

+
Use a structured approach to debug your Dataflow pipelines.
+
Examine common causes for pipeline failures.

17

Performance

+
Understand performance considerations for pipelines.
+
Consider how the shape of your data can affect pipeline performance.

18

Testing and CI/CD

+
Testing approaches for your Dataflow pipeline.
+
Review frameworks and features available to streamline your CI/CD workflow for Dataflow pipelines.

19

Reliability

+
Implement reliability best practices for your Dataflow pipelines.

20

Flex Templates

+
Using flex templates to standardize and reuse Dataflow pipeline code.

21

Summary

+
Summary
Học cùng các
chuyên gia Goole Cloud
Asset 2@2x

Asset 32@2x
Asset 2

Cảm nghĩ học viên

Cloud Ace Training
đem đến những trải nghiệm tuyệt vời cho học viên

Asset 4

Trần Tuấn Anh

IT

Sau khi học xong khóa học Associate Cloud Engineer mình đã biết cách vận hành và triển khai dự án trên Google Cloud và tự tin thi lấy chứng chỉ của Google Cloud

Nguyễn Ngọc Minh Thy

Data Engineer

Sau khi học xong khóa học Professional Data Engineer mình đã có đủ kiến thức và tự tin thi lấy chứng chỉ Google Cloud để chuẩn bị cho công việc của mình sắp tới

Trương Quốc Thắng

Data Engineer

Mình đã biết cách lựa chọn các công cụ và áp dụng với doanh nghiệp để xử lý dữ liệu hiệu quả thông qua khóa học Professional Data Engineer

Phạm Văn Hùng

IT

Khóa học rất chi tiết và đầy đủ, sau khi học xong khóa học Associate Cloud Engineer, mình rất muốn có cơ hội học thêm các khóa học khác để hiểu rõ hơn về Google Cloud

Dương Minh Phương

Engineer

Sau khi học xong khóa học Associate Cloud Engineer, mình đã hiểu rõ về Google Cloud và có thể đưa ra các giải pháp cho doanh nghiệp triển khai các dự án trên GCP
Asset 5

Đăng ký ngay để trở thành

" Chuyên gia Google Cloud "

Asset 8@2x

    câu hỏi thường gặp

    Cloud Ace là đơn vị đào tạo Google Cloud nên không tổ chức thi và cung cấp chứng chỉ Google Cloud. Cloud Ace chỉ hỗ trợ cung cấp chứng nhận hoàn thành khóa học cho học viên trong quá trình đợi thi lấy chứng Google Cloud

    Ngoài ra, nếu bạn muốn thi lấy chứng chỉ Google Cloud, thì Cloud Ace sẽ hướng dẫn đăng ký thi Online hoặc Offline tại các trung tâm khảo thí ủy quyền của Google Cloud tại Việt Nam

    Dĩ nhiên là được, trong suốt quá trình học, bạn sẽ liên tục được giải các bài Quiz, các bài thi thử mô phỏng gần giống với đề thi thực tế của Google Cloud. Ngoài ra, Cloud Ace còn cung cấp các câu hỏi Dump liên tục cập nhật các dạng đề, câu hỏi thi từ Google Cloud giúp bạn có sự chuẩn bị tốt nhất cho kỳ thi.

    Tất nhiên là có rồi. bạn sẽ được Cloud Ace hỗ trợ trong quá trình học và kể cả khi kết thúc khóa học. Bạn có thể tương tác với Trainer qua Slack, email hoặc qua Group Google Cloud Plartform User HCM để được các Trainer hỗ trợ nhé.

    Sau khi học xong khóa học, nếu bạn có thắc mắc nào về phần kiến thức hoặc gặp khó khăn trong quá trình triển khai dự án trên Google Cloud thì có thể liên hệ với Trainer để được giải đáp thắc mắc nhé.

    Khóa học Google Cloud không chỉ phù hợp với các kỹ sư phần mềm hay kỹ sư phát triển hệ thống mà còn phù hợp với các kỹ sư xử lý dữ liệu như Data Engineer, Data Scientist.

    Ngoài ra, nếu bạn đang là Marketer hay làm việc trong lĩnh vực tài chính, ngân hàng, TMDT, Logistics…. liên tục phải đối mặt với dữ liệu lớn cần giải quyết thì có thể tham khảo các khóa học Big Data Machine Learning Fundamental hoặc các khóa From Data to Insight on Google Cloud Plartform để tham khảo các xử lý dữ liệu đơn giản và tạo báo cáo chuyên nghiệp trên Google Cloud nhé.