Thursday, July 26, 2018

[BLOG] - Nhập môn Data Science - 5

'Theo báo cáo Hype Cycle Report năm 2014 của Gartner, Big Data đã qua thời đỉnh cao và đang trải qua giai đoạn vỡ mộng có thể kéo dài từ 5 đến 10 năm với những ứng dụng được triển khai và thất bại. Thậm chí năm 2015, Gartner dự đoán đến 2017 sẽ có tới 60% các dự án Big Data sẽ không vượt qua nổi phòng nghiên cứu để đến với khách hàng. Kết quả còn tệ hơn vậy, chỉ có 17% các dự án Big Data sử dụng Hadoop là được dùng thật, tức là có tới 83% dự án khác thất bại.'
Vậy câu chuyện này nên được hiểu thế nào?
Sở dĩ Big Data & Data Science trở thành trend vì người ta kì vọng vào việc hỗ trợ ra quyết định nhờ phân tích dữ liệu lớn (data driven decision making). Lấy cảm hứng từ các đại công ty như Facebook, Google, Amazon, Netflix, etc - với các kịch bản sử dụng hiệu quả big data cho việc ra quyết định trong các bài toán như recommendation (Netflix có thể đề xuất video phù hợp với bạn, Google đề xuất quảng cáo phù hợp với người dùng), prediction (Amazon có thể dự đoán được món hàng mà bạn sẽ mua) - nhiều công ty cũng muốn thử.
Tuy nhiên, business của mỗi công ty khác nhau - và việc khai thác dữ liệu không lúc nào cũng thành công - thậm chí có công ty còn không thể biết được với câu hỏi dạng nào thì có ích? Ví dụ, trong trường ĐH, dữ liệu được phát sinh và thu thập rất nhiều - có bao giờ bạn đặt các câu hỏi và hi vọng câu trả lời sẽ giúp cải tiến trong việc ra quyết định?
Nói một cách khác, với các dự án Big Data Analytics trong thực tế có thể thất bại vì một trong các lí do sau:
1. Có dữ liệu - nhưng không biết có tìm được insight nào đáng giá không? Tôi có một anh bạn ở UK kể về một dự án - trong đó bệnh viện mời data scientists vào để làm việc với một đống dữ liệu được tạo ra trong quá trình làm việc của họ - câu hỏi đặt ra là đánh giá tính hiệu quả của qui trình hiện tại và có cách nào để cải thiện được qui trình hiện tại thuận tiện hơn cho bệnh nhân hay không. Với câu hỏi dạng này - không biết trước được dự án có thành công hay không.
2. Có công cụ - nhưng không có dữ liệu nào đáng giá để triển khai. Ví dụ ko có dữ liệu của bank transactions, MRI images, user behaviors, etc thì những thứ được học chỉ dừng ở mức lí thuyết, ko có ứng dụng gì.
Chúng ta được học thiên về trang bị công cụ - nhưng thực ra, cái cần thiết hơn cả đó là biết đặt câu hỏi và biết cách tạo ra dữ liệu để có thể tìm được insight đáng giá.
Trong danh sách 10 điều Data Scientists thường làm - kĩ năng đặt câu hỏi là number 1.
==== 10 Things Data Scientists Do ====
1. Ask good questions! What don’t we know? What do we know?
2. Define and test hypothesis — run experiments.
3. Scoop, scrap, sink and sample business relevant data
4. Munge and wrestle data. Tame the data!
5. Explore data, discover data, discover its unknowns.
6. Model data, model algorithms.
7. Understand data relationships.
8. Tell the “machine” how to learn from data.
9. Create data products that deliver actionable insight.
10. Tell relevant business stories from the data.
>>> Why are data scientists so important these days? Two words: Big Data.

Link: https://www.facebook.com/bigdata.deeplearning.uit/posts/2054183618232081