Data Engineer hiện đang là ngành phát triển và nhận được sự quan tâm lớn. Nhiều cơ hội bắt đầu mở ra cho các ứng viên theo đuổi ngành nghề này. Hãy cùng JobsGO tìm hiểu những câu hỏi phỏng vấn Data Engineer phổ biến và cách trả lời nhé!
Mục lục
- 1. Tại sao bạn lựa chọn nghề Data Engineering?
- 2. Công việc của Data Engineer trong công ty?
- 3. Data Engineer sử dụng ngôn ngữ lập trình gì?
- 4. P&ID là gì?
- 5. Liệt kê 4V của Big Data
- 6. Hãy cho biết một số tính năng quan trọng của Hadoop?
- 7. Cách bạn xử lý sự cố cho một thiết bị trong nhà máy như thế nào?
- 8. Mô hình hoá dữ liệu (Data Modeling) là gì?
- 9. So sánh SQL và NoSQL
- 10. Giải thích sự khác biệt giữa dữ liệu có cấu trúc và dữ liệu phi cấu trúc
- 11. Sự khác biệt giữa Data Engineer, Data Scientist và Software Engineer
- 12. Giải thích về kỹ thuật ETL trong xử lý dữ liệu
- 13. Có những giai đoạn nào trong quá trình phân tích dữ liệu
- 14. Nêu một số công cụ biểu diễn trực quan hóa dữ liệu
- 15. Bạn có câu hỏi nào cho chúng tôi không?
1. Tại sao bạn lựa chọn nghề Data Engineering?
Đây là câu hỏi đánh giá mức độ phù hợp của bạn với lĩnh vực Data Engineering.
Bạn nên trả lời tập trung vào con đường trở thành Data Engineer của mình, điều gì đã thu hút bạn đến với nghề hoặc ngành này, bạn đã phát triển các kỹ năng của mình như thế nào,…
2. Công việc của Data Engineer trong công ty?
Đối với câu hỏi này, Nhà tuyển dụng muốn biết bạn có nhận thức được nhiệm vụ của một Data Engineer hay không. Bạn có thể làm gì? Bạn sẽ đóng vai trò gì trong một nhóm?
Để trả lời, bạn có thể liệt kê các nhiệm vụ thường thấy của Data Engineer là:
- Generalist: Đảm nhận các công việc tổng quát: thu thập, tải lên, nhập, đồng thời xử lý dữ liệu đầu cuối.
- Pipeline-centric: Phụ trách mảng Data Pipeline: xử lý dữ liệu và chuyển dữ liệu từ hệ thống này sang hệ thống khác.
- Database-centric: Chuyên về cơ sở dữ liệu: thiết lập, triển khai, duy trì và đưa cơ sở dữ liệu đã phân tích vào hệ thống.
3. Data Engineer sử dụng ngôn ngữ lập trình gì?
Với câu hỏi phỏng vấn Data Engineer về ngôn ngữ lập trình, JobsGO có gợi ý trả lời như sau:
- Data Engineer sẽ phải sử dụng SQL để thiết lập, truy vấn và quản lý hệ thống cơ sở dữ liệu.
- Data Engineer sử dụng Python để viết các ETL scripts trích xuất, chuyển đổi và tải dữ liệu từ hệ thống này sang hệ thống khác và để thiết lập các mô hình thống kê và thực hiện phân tích.
4. P&ID là gì?
P&ID là từ viết tắt của Piping and Instrumentation Diagram, là sơ đồ đường ống và thiết bị đo đạc. Các Data Engineer thường sử dụng chúng để xác định vị trí đặt đơn vị đo lường cho dòng khí.
5. Liệt kê 4V của Big Data
Rất có thể, người phỏng vấn Data Engineer không chỉ muốn bạn kể tên 4V bao gồm những gì mà còn hỏi tại sao chúng lại quan trọng. Bạn có thể giải thích như sau:
4V của Big Data bao gồm:
- Khối lượng (Volume): Đề cập đến kích thước của bộ dữ liệu.
- Vận tốc (Velocity): Đề cập đến tốc độ mà dữ liệu được tạo ra.
- Sự đa dạng (Variety): Đề cập đến nhiều loại nguồn và tệp của dữ liệu có cấu trúc và phi cấu trúc.
- Tính xác thực (Veracity): Đề cập đến chất lượng của dữ liệu được phân tích.
6. Hãy cho biết một số tính năng quan trọng của Hadoop?
Khi đặt câu hỏi phỏng vấn Data Engineer này, Nhà tuyển dụng đang kiểm tra xem bạn có hiểu tầm quan trọng của nó trong kỹ thuật dữ liệu hay không. Hãy trả lời như sau:
Hadoop là một khung lưu trữ dữ liệu và chạy các ứng dụng dung lượng lớn. Hadoop có ưu điểm xử lý dữ liệu nhanh chóng, độc lập, cho phép tạo ba bản sao cho mỗi khối với các nút khác nhau.
7. Cách bạn xử lý sự cố cho một thiết bị trong nhà máy như thế nào?
Đây là câu hỏi phỏng vấn Data Engineer để Nhà tuyển dụng xác định được những trở ngại mà bạn có thể gặp khi xử lý một vấn đề và cách bạn giải quyết chúng.
Hãy tham khảo câu trả lời sau: “Đầu tiên, tôi yêu cầu người vận hành thiết bị kể lại các bước cuối cùng của họ, sau đó tôi tham khảo các bản ghi dữ liệu và phát triển một số lý thuyết và sau đó tôi mới có thể kiểm tra máy.”
8. Mô hình hoá dữ liệu (Data Modeling) là gì?
Mô hình hóa dữ liệu (Data Modeling) là sơ đồ về cách thức tổ chức, lưu trữ dữ liệu trong doanh nghiệp và các mối liên kết giữa các thông tin đó.
Ví dụ về một mô hình dữ liệu của cửa hàng bán ô tô, trong đó:
- Ô tô: Hãng, năm sản xuất, màu sắc và kích thước của chiếc ô tô
- Khách hàng: họ tên, chứng minh thư, số điện thoại
- Mối quan hệ là Mua hàng (ngày mua, số lượng, thành tiền…)
9. So sánh SQL và NoSQL
Cơ sở dữ liệu SQL và NoSQL là hai loại cơ sở dữ liệu phổ biến nhất. Dưới đây là những khác biệt chính của chúng:
Tham số | SQL | NoSQL |
Ngôn ngữ | Sử dụng ngôn ngữ truy vấn có cấu trúc. | Sử dụng ngôn ngữ truy vấn không cấu trúc. |
Cấu trúc | Biểu thị dữ liệu dưới dạng bảng, hàng và cột. | Biểu thị dữ liệu dưới dạng biểu đồ, các cặp khóa – giá trị và nhiều hơn thế. |
Khả năng mở rộng | Có thể mở rộng theo chiều dọc. | Có thể mở rộng theo chiều ngang. |
Ngôn ngữ Query | Structured Query Language. | Không có ngôn ngữ Query. |
Phần mềm | MySql, Oracle, Ms-SQL. | MongoDB, Cassandra, HBase, CouchDB. |
Bảng 1. So sánh SQL và NoSQL.
10. Giải thích sự khác biệt giữa dữ liệu có cấu trúc và dữ liệu phi cấu trúc
Đây là hai kiểu dữ liệu có vai trò quan trọng đối với các doanh nghiệp thế nhưng chúng có những khác biệt vô cùng lớn:
Dữ liệu có cấu trúc | Dữ liệu phi cấu trúc |
Có thể được biểu diễn theo hàng, cột và cơ sở dữ liệu quan hệ. | Không thể biểu diễn theo hàng, cột và cơ sở dữ liệu quan hệ. |
Ở dạng số, ngày tháng hoặc chuỗi. | Ở dạng hình ảnh, âm thanh, video, file văn bản, email, trang tính. |
Chiếm khoảng 20% dữ liệu trong doanh nghiệp. | Chiếm khoảng 80% dữ liệu trong doanh nghiệp. |
Yêu cầu ít không gian lưu trữ. | Yêu cầu nhiều không gian lưu trữ. |
Dễ dàng quản lý và bảo vệ bằng các giải pháp kế thừa. | Khó khăn hơn để quản lý và bảo vệ bằng các giải pháp kế thừa. |
Bảng 2. Sự khác biệt giữa dữ liệu có cấu trúc và dữ liệu phi cấu trúc.
11. Sự khác biệt giữa Data Engineer, Data Scientist và Software Engineer
Data Engineer thường bị nhầm lẫn với các vị trí khác là Data Scientist và Software Engineer. Tuy nhiên 3 vị trí này có khá nhiều điểm khác nhau, cụ thể:
Vị trí | Vai trò | Công việc chính |
Software Engineer | Là nhân sự thực hiện Application và Systems. Họ tham gia vào các giai đoạn như thiết kế, code, testing, review. |
|
Data Engineer | Là nhân sự xây dựng các hệ thống tổng hợp, lưu trữ, xuất dữ liệu từ Systems, app được tạo từ Software Engineer. |
|
Data Scientist | Là nhân sự tạo ra hệ thống phân tích dựa trên toàn bộ data. |
|
Xem thêm: Data science là gì? Kỹ năng cần có để trở thành Data Scientist
Bảng 3. Sự khác biệt giữa Data Engineer, Data Scientist và Software Engineer.
12. Giải thích về kỹ thuật ETL trong xử lý dữ liệu
ETL là viết tắt của Extract, Transform và Load, là một kỹ thuật trích xuất dữ liệu từ các hệ thống nguồn khác nhau sau đó tải chúng vào hệ thống kho dữ liệu Data Warehouse.
Kỹ thuật của ETL có 3 bước:
- Extract: trích xuất dữ liệu từ các nguồn
- Transform: biến đổi dữ liệu dựa vào các quy tắc, bảng tra cứu,…
- Load: tải dữ liệu vào đích
13. Có những giai đoạn nào trong quá trình phân tích dữ liệu
Có 4 giai đoạn chính trong quá trình phân tích dữ liệu:
- Phân tích mô tả (Descriptive Analytics): Tìm hiểu thông tin về quá khứ, hiện tại và xu hướng của dữ liệu.
- Phân tích chẩn đoán (Diagnostic Analytics): Giải thích các nguyên nhân, đặc điểm của các hiện tượng hoặc sự kiện trong dữ liệu.
- Phân tích tiên đoán (Predictive Analytics): Dự đoán các sự kiện hoặc xu hướng trong tương lai.
- Phân tích chỉ đạo (Prescriptive Analytics): Sử dụng kết quả từ phân tích tiên đoán để đưa ra các quyết định chỉ đạo và lập kế hoạch.
14. Nêu một số công cụ biểu diễn trực quan hóa dữ liệu
Với câu hỏi phỏng vấn Data Engineer này, bạn hãy kể tên một số công cụ biểu diễn trực quan hoá dữ liệu phổ biến như:
- Microsoft Power BI
- Microsoft Excel
- SAP Business Objects
- Datapine
- Oracle BI
- SAS Business Intelligence
- MicroStrategy
15. Bạn có câu hỏi nào cho chúng tôi không?
Hầu hết các cuộc phỏng vấn đều sẽ kết thúc với câu hỏi này. Hãy coi đây là cơ hội để tạo ấn tượng, rằng bạn rất quan tâm đến công ty và vị trí Data Engineer đang tuyển. Một số câu hỏi bạn nên đề cập với Nhà tuyển dụng:
- Văn hóa công ty là gì?
- Một ngày điển hình của công việc này trông như thế nào?
- Những kỳ vọng trong ba tháng đầu tiên với vai trò Data Engineer là gì và tiêu chuẩn để đánh giá thành công?
- Tôi sẽ làm việc với ai?
- vv,…
Xem thêm: Các câu hỏi phỏng vấn về văn hóa công ty phổ biến & cách trả lời
Trên đây là list những câu hỏi mà bạn sẽ có thể gặp trong buổi phỏng vấn Data Engineer của mình. Hy vọng bài viết của JobsGO có thể hữu ích dành cho các bạn đang muốn tìm một công việc tốt trong ngành này!
(Theo JobsGO - Nền tảng tìm việc làm, tuyển dụng, tạo CV xin việc)