Sunday, July 22, 2018

[BLOG] - Nhập môn Data Science - 1

Có rất nhiều tài liệu có thể tìm thấy trên mạng về Data Science - nhưng tôi vẫn muốn tìm cho mình một cách hiểu 'dân dã' - khác một chút về cách diễn đạt.
Nói một cách đơn giản Data Science = Data + Science.
Nôm na là: Data là dữ liệu đầu vào - Science là kĩ thuật để xử lí dữ liệu - và Data + Science sẽ cho ra một Answer (kết quả) nào đó.
Ví dụ: chúng ta lắp camera giám sát tại UIT ( Data) và chúng ta muốn biết có hành vi phá hoại cơ sở vật chất hay không (Answer) - để trả lời câu hỏi đó, chúng ta cần các kĩ thuật (Science).
Hiện nay - hầu như mọi người tập trung vào khía cạnh kĩ thuật (ví dụ ngôn ngữ lập trình Python, máy học deep learning, etc) - nhưng lại quên rằng 2 khía cạnh còn lại là dữ liệu và câu hỏi cũng quan trọng không kém!
Nhiều chương trình đào tạo hiện nay cũng chủ yếu tập trung vào kĩ thuật - do đó, dữ liệu và câu hỏi xem như đã cố định trước. Nhưng lúc triển khai thực tế - dữ liệu và câu hỏi lại rất đặc thù cho từng công việc cụ thể. Nói cách khác - nếu học xong mà dữ liệu và câu hỏi giống như lúc học thì quá đơn giản. Nhưng thực tế thì không đơn giản như vậy.
Điều này nói lên điều gì? Đó là nếu bạn không rành về lập trình để focus vào phần kĩ thuật - bạn vẫn có thể trở thành team member của Data Science team - bạn có thể là người làm dữ liệu - hoặc bạn có thể là người đặt câu hỏi?!
Nếu nhìn vào cái hình trong ô bên dưới sẽ thấy người ta tách ra Hacking Skills và Math&Statistics Knowlege - có thể diễn giải thế này - Hacking Skills liên quan nhiều đến kĩ thuật lập trình - tức là có thuật toán thì cần phải hiện thực hoá nó bằng chương trình để kiểm chứng - Math & Statistics Knowledge nó liên quan nhiều đến tìm ra thuật toán. Có nhiều người giỏi lập trình - nhưng không giỏi thuật toán và ngược lại (giống như dân Dev và PhD).
Điều này nói lên điều gỉ? Đó là bạn không cần phải giỏi cả hai thứ cùng lúc - nhưng để làm được cái gì đó - bạn phải cần có team bổ sung lẫn nhau. 
Tham khảo: https://www.coursera.org/…/pytho…/lecture/wPUOQ/data-science (bạn cần đăng kí khoá học này trên Coursera trước)

Link: https://www.facebook.com/bigdata.deeplearning.uit/posts/2042980346019075