Với phương pháp học nói chung và học Data Science nói riêng, có 2 cách tiếp cận tạm gọi là top-down và bottom-up. Cách tiếp cận top-down thường được nhiều người nghĩ đến (và cho là đúng) - đó là học hết các kĩ thuật liên quan rồi mới ' xuống núi' - tức là học Python, Spark, Deep Learning, Machine Learning - rồi sau đó đi tìm bài toán để giải quyết. Cách tiếp cận bottom-up thường được cho là mang tính 'thợ' - đó là xuất phát từ một bài toán thực tế nào đó - và đi tìm các kĩ thuật giúp để giải quyết bài toán đó. Cách tiếp cận top-down là cách được nhiều chương trình đào tạo hàn lâm offer - và không hiệu quả với tình hình hiện nay ở VN (nếu xét trên cùng một mức độ đầu tư về thời gian, công sức, tiền bạc và nguồn lực hiện có của người học).
Tôi cho rằng, nên bắt đầu bằng cách tiếp cận bottom-up trước - hãy làm một cái gì đó nhỏ thôi - vừa sức mình - làm thành công sẽ giúp mình tự tin hơn, và từ đó hiểu hơn về nhu cầu học cái gì, tại sao phải học cái kia. Và nên tránh xa các khẩu hiệu như đi tắt đón đầu, đánh bại Google, Facebook, tiến lên CMCN 4.0.
Nói về Data - ở một góc nhìn khác, có thể tạm chia ra hai loại: sân nhà - sân khách. Sân khách - nôm na là loại dữ liệu mà mình khó có cơ hội với tới được, ví dụ dữ liệu Facebook, Amazon - hoặc dữ liệu bệnh viện, ngân hàng. Sân nhà - nôm na là loại dữ liệu mà mình có thể tạo ra được hoặc có thể truy cập được.
Quay trở lại với việc học Data Science, cách tiếp cận bottom-up là hãy bắt đầu với Data - sân nhà - và tìm cách đặt câu hỏi - để từ đó đi học các kĩ thuật để tìm câu trả lời. Với góc nhìn đó, không nhất thiết bạn phải đóng 3 vai trò cùng lúc - dữ liệu - câu hỏi - kĩ thuật. Nếu bạn là sếp - bạn chỉ cần quan tâm đến dữ liệu và đặt câu hỏi - và phần còn lại - bạn sẽ đi tìm người biết về thuật toán, mô hình giải quyết vấn đề (Math&Statistics) và người biết về lập trình (Hacking Skills).
Một ví dụ về việc quản lí luận văn của sinh viên. Cách làm thông thường là sinh viên khi tốt nghiệp sẽ nộp CD luận văn, code. Sau khi nộp xong, thường là gom lại để trong tủ cất ở Khoa. Còn danh sách luận văn và điểm lưu ở file xls mà Phòng Đào Tạo quản lí hầu như không có liên kết nào với dữ liệu luận văn này. Với cách làm này, sẽ có những câu hỏi không trả lời được ví dụ: (tiêu đề/nội dung) luận văn các khoá có trùng lắp nội dung không (sao chép-đạo văn), số trang trung bình của luận văn là bao nhiêu - có mối liên hệ nào giữa số trang và kết qủa không - ví dụ càng nhiều trang - điểm càng cao, số lượng SV bảo vệ từng đợt qua các năm, phân bố điểm số - ví dụ càng về sau điểm trung bình càng giảm, v.v
Nếu những câu hỏi này được đặt ra sớm - lúc này, sẽ thấy có nhiều giải pháp - và không nhất thiết phải cần kĩ năng lập trình gì cả. Ví dụ, chỉ cần tạo một cái form để collect các thông tin - mỗi khi SV nộp thì thông tin họ điền vào form sẽ được cập nhật trong một file xls - chỉ cần vài thao tác trên file này là có thể trả lời được phần lớn các câu hỏi trên. Lúc này, vấn đề tốn thời gian không phải nằm ở chỗ lập trình, mà nằm ở chỗ dữ liệu được nhập vào form. Với việc yêu cầu SV nhập liệu, tổng thời gian được chia nhỏ ra cho mỗi SV nên đơn vị quản lí chỉ tốn thời gian lúc đầu mà thôi.
Bạn có thể tìm được nhiều ví dụ khác - mà ở đó, chỉ cần để tâm suy nghĩ một chút về số hoá để tạo ra dữ liệu chủ động - sẽ trả lời được rất nhiều câu hỏi phục vụ cho việc quản lí tốt hơn.
Link: https://www.facebook.com/bigdata.deeplearning.uit/posts/2045325689117874