Big Data & Deep Learning: [HADOOP] - Doug Cutting nói về sự ra đời của Hadoop

Trong video dưới đây, Doug Cutting nói về sự ra đời của Hadoop.

Năm 2003, Doug phát triển phần mềm mở Nutch (máy tìm kiếm - we search engine) và gặp vấn đề khi số lượng các trang web phải thu thập và xử lí ngày càng lớnD. Hệ thống phải có tính co giãn (scalable) cao cả về mặt LƯU TRỮ và XỬ LÍ. Nói cách khác, cần phải có các giải pháp (thuật toán, phần mềm, etc) để có thể sử dụng tài nguyên của NHIỀU máy trong việc lưu trữ và tính toán (thay vì một máy như trước đây). Vào thời điểm đó, hệ thống Nutch chỉ có thể chạy trên 4-5 máy (nhưng không ổn định).

Năm 2004, Google công bố một số bài báo khoa học về hệ thống lưu trữ PHÂN TÁN (DFS) và và mô hình XỬ LÍ MapReduce; Doug Cutting và cộng sự tìm cách cài đặt lại dựa trên các bài báo của Google và hệ thống có thể chạy trên 20-40 máy. YSau đó, năm 2006, Doug Cutting làm việc tại Yahoo và tách phần tính toán phân tán (distributed computing plaform) từ Nutch ra và phát triển thành Hadoop;

Phiên bản Hadoop đầu tiên ra đời năm 2006 và từ đó được sử dụng rộng rãi và liên tục phát triển, có khả năng xử lí dữ liệu cực lớn trên hàng ngàn máy. Ngày nay, có nhiều phần mềm được bổ sung vào hệ thống ban đầu tạo nên một hệ sinh thái (ecosystem) như Spark, Pig, Hive, etcU - nên Hadoop bây giờ còn có thể hiểu như là Hadoop Ecosystem.

Tham khảo:
https://www.informationweek.com/big-data/software-platforms/hadoop-at-10-doug-cutting-on-making-big-data-work/d/d-id/1324138

Keyword: hadoop, map reduce, distribute file system, distributed computing platform, storage, big data, hadoop ecosystem, HDFS, doug cutting, udacity, cloudera

@Lê Đình Duy

Saturday, September 2, 2017

[HADOOP] - Doug Cutting nói về sự ra đời của Hadoop