- Data Engineer: các bạn làm việc kĩ thuật về dữ liệu, xây luồng dữ liệu, xây hạ tầng, đảm bảo dữ liệu chạy tốt, đủ, đều
- Data Analyst / Business Analyst: các bạn này làm việc nghiên cứu về số, xây dựng báo cáo, dashboard, trả lời các câu hỏi về mặt kinh doanh, đưa ra lời khuyên, phân tích…
- Data Scientist: các bạn này thường sẽ làm luôn cả việc của analyst, nhưng điểm khác biệt chính là các bạn làm về mô hình, về các thuật toán machine learning, AI này kia nhiều hơn, nặng hơn và có thể sẽ cần tích hợp mô hình đó vào một hệ thống khác
Lưu ý rằng tùy công ty mà các định nghĩa về 3 vai trò này có thể được hoán chuyển, đảm đương công việc của nhau. Cái đó không quan trọng lắm, cái quan trọng là bạn làm việc gì, thế nên mình sẽ không chia máy theo vai trò, mà theo việc bạn hay thực hiện khi đi làm nhé.
Việc lấy số, làm báo cáo, xây dựng dashboard
Với công việc này, thường bạn sẽ dùng một “client” trên máy tính của mình và kết nối vào hệ thống dữ liệu của công ty, ví dụ như dùng SQL để lấy dữ liệu ra và hiển thị thành biểu đồ, hoặc dùng các phần mềm như Tableau, Microstrategy, Power BI… để kết nối dữ liệu từ data warehouse / database / data lake… của công ty và vẽ nó lên thành hình thù để theo dõi và tìm hiểu ý nghĩa. Một số công ty thì có thể dùng thẳng trên trình duyệt web, bạn không cần phải cài bất kì phần mềm nào thêm, ví dụ như bạn nào dùng Superset, Redash, Metabase, Google Data Studio, AWS QuickSight…
Việc làm hạ tầng, xây dựng data pipeline, làm những thứ của data engineering
Với các việc này, bạn sẽ cần một cái máy mạnh hơn một chút vì đôi lúc bạn sẽ phải chạy thêm các docker container, phải chạy nhiều tool song song với nhau để phát triển giải pháp trước khi chính thức đưa lên server. Nhưng cũng không cần phải gọi là max cấu hình hay gì, một cấu hình vừa đủ là đã chơi được rồi, bạn không cần đổ quá nhiều tiền cho con PC nếu chỉ dùng cho việc của data engineer.
Một con CPU Core i7 dòng H, RAM tầm 16GB, có khi không cần GPU mạnh, vậy là đủ. Bạn có thể dễ dàng tìm được một con laptop với cấu hình như thế này với giá tầm 20 triệu trở lên.
Việc thử nghiệm các thuật toán machine learning, xây dựng, huấn luyện model
Các bạn data scientist trong team mình, cũng như trong các công ty mình đã từng làm, không cần một con laptop quá mạnh để có thể làm được những việc như train model, lọc số, làm sạch dữ liệu, hay xây dựng model để chuẩn bị tích hợp vào các hệ thống vận hành. Nhiều anh em vẫn dùng MacBook Air, nhiều bạn xài MacBook Pro 2015, có bạn xài một con Dell Gaming… nhưng không có máy nào gọi là cấu hình khủng hay cấu hình trăm triệu cả.
Vậy khi cần chạy lâu, chạy nặng thì sao? Việc train các model có thể kéo dài nhiều (chục) tiếng, kéo dài lên đến vài ngày. Việc đưa cho con máy tính cá nhân của bạn chạy việc này không hợp lý vì bạn sẽ cần phải mang đi đâu đó, và trong thời gian đấy thì để máy tính chạy liên tục có khi không phải ý hay, rồi còn phải lo về việc pin cho nó nữa. Chưa kể nếu đang chạy ở máy local của bạn mà bị cúp điện, bị hết pin thì phiền lắm.
Tóm lại, bạn không cần cấu hình quá mạnh để làm việc data
Một số sai lầm mình thường thấy đó là các bạn mới bắt đầu học data thì đã đi đầu tư nhiều chục triệu để mua những dàn máy cực đỉnh, rồi những bạn chỉ làm phân tích mà chơi hẳn một con desktop Core i9, GPU GTX các thứ. Trừ khi bạn dùng luôn con máy đó để thực hiện phản xạ tốc độ cao với PUBG, COD, thực hiện khảo sát hành vi của con người trong đô thị với hệ thống GTA V hoặc tìm hiểu về khả năng vận hành của xe hơi với Forza Horizon thì ok, mua hẳn một con thật xịn về để học tập nghiên cứu cho sướng
Bạn hãy dùng chính cái máy tính mà bạn đang có để làm việc, rồi khi nào thấy cần thì hãy nâng cấp, chứ đừng vội vàng nâng cấp mà uổng tiền, lại không khai thác hết cái số tiền bạn đã bỏ ra cho việc làm data. Ngoài ra, cũng không nên nghe ai xúi bậy rằng làm việc data thì bắt buộc phải có máy tính đắt tiền nhé.
Theo thời gian, khi bạn đã làm việc, làm thực chiến, bạn sẽ biết mình cần gì, khi đó từ từ nâng cấp máy cũng không muộn. Hãy chi tiền một cách hiệu quả nhé.