Data trong Data Science được ví như là nguồn năng lượng trong các động cơ. Động cơ có mạnh đi nữa mà không có năng lượng để khởi động thì không làm được gì. Deep learning python để làm gì?
Ngày nay việc tạo ra dữ liệu dễ dàng hơn bao giờ hết. Dữ liệu tạo ra của những năm gần đây chiếm hơn 90% lượng dữ liệu tạo ra trong vài thập kỉ qua. Việc tạo ra dữ liệu có thể tạm phân chia thành 2 loại: thụ động và chủ động. Ví dụ, trong công việc, chúng ta tạo ra tài liệu .doc, .xls, .jpg, hay trong cuộc sống, chúng ta chụp hình, post facebook, chat, etc - những dữ liệu này tạm gọi là thụ động vì chúng ta thường không biết sẽ dùng nó vào việc gì khác với ý định ban đầu. Tuy nhiên, đối với Google hay Facebook, mỗi đánh dấu Spam, hay Like, Share thì dữ liệu tạo ra có thể dùng để tạo Spam Filter tốt hơn, có thể đánh giá chính xác hơn độ quan trọng của một post Facebook. Mỗi hành vi mua các sản phẩm cùng nhau trên Amazon sẽ giúp hệ thống Recommender hoạt động tốt hơn. Những dữ liệu như vậy tạm gọi là chủ động vì nó có mục đích dùng trước.
Trong các chương trình đào tạo data science hiện nay, chúng ta thường được minh hoạ về các ví dụ như Amazon, Facebook xử lí dữ liệu lớn như thế nào để có được kết quả. Nhưng khi ra đi làm, chúng ta đâu có đụng được các dữ liệu đó trừ khi chúng ta là nhân viên của họ. Hay các ứng dụng khác nghe rất hay ho như phát hiện giao dịch thẻ giả mạo (fraud detection) hay phát hiện ung thư (cancer detection) - nhưng chúng ta làm gì có được thông tin của các giao dịch thẻ hay dữ liệu chẩn đoán hình ảnh để mà thử?! Do đó, đa số học xong, ra ngoài đi làm, vẫn cứ thấy hụt hụt cái gì đó vô hình - chân không đạp đất - đầu không đội trời.
Theo quan điểm của tôi, để ứng dụng được Data Science trong thực tế tại VN, vấn đề chính nằm ở chỗ tạo ra dữ liệu chủ động chứ không phải là các kĩ thuật. Ví dụ, khi làm tuyển sinh sau đại học, có câu hỏi là bao nhiêu cựu SV sẽ quay lại học SĐH tại Trường? Nếu không nghĩ đến câu hỏi này khi thu thập dữ liệu, thì trong sheet sẽ không có cột lưu thông tin bạn tốt nghiệp ở đâu - và nếu không có thông tin này thì làm sao trả lời được câu hỏi trên?
Do đó, câu hỏi đầu tiên tôi thường đặt ra cho lớp Nhập môn Data Science là dữ liệu thường ngày bạn tạo ra là gì, bạn có quan tâm đến các câu hỏi/câu trả lời từ dữ liệu tạo ra (ngoài mục đích ban đầu)? Và điều này cũng cho thấy Nhập môn DS không nhất thiết phải dạy cho sinh viên chuyên về IT. Bạn có background ngành khác, vẫn có thể học được.
(Hình minh hoạ cho thấy - phần khó nhất của ML Systems không phải là ML mà là Data)
>>> B2DL Lab sẽ sớm có thông báo các khoá học về Data Science, AI, Machine Learning dành cho các bạn không phải chuyên ngành IT (tốt nghiệp các ngành Khoa học Tự nhiên, Khoa học Kĩ thuật) muốn chuyển đổi sang làm việc trong lĩnh vực IT <<<
Link: https://www.facebook.com/bigdata.deeplearning.uit/posts/2044428469207596