What is Big Data? Định nghĩa về dữ liệu lớn hay Khái niệm về dữ liệu lớn hay Dữ liệu lớn là gì?
Có thể tìm các câu trả lời cho các câu hỏi này trên Internet; và nói chung đa số sẽ nói về các đặc tính của dữ liệu lớn đó là 3V chính bao gồm Volume (kích thước), Velocity (tốc độ), Variety (tính đa dạng); và 2V khác bao gồm Veracity (tính xác thực) và Value (giá trị) - xem hình dưới đây:
Một cách rõ hơn có thể xem hình sau
Tuy nhiên, nếu đứng ở góc nhìn của những người làm, học, và ứng dụng Hadoop, thì đơn giản như trong video clip này - đó là: big data dùng để chỉ dữ liệu quá lớn đến nỗi không thể xử lí trên một máy đơn.
Như vậy, Dnếu máy đơn của bạn có cấu hình mạnh - ví dụ 10TB đĩa cứng - thì kích thước dữ liệu mà hệ thống của bạn cần lưu trữ và xử lí phải trên 10TB mới được coi là dữ liệu lớnU. Trong khi đó, một máy đơn chỉ có 500GB đĩa cứng thì dữ liệu trên 1TB đã được coi là dữ liệu lớn.
Với góc nhìn này, không nhất thiết một hệ thống xử lí dữ liệu cỡ 10TB cần phải dùng Hadoop. Và do đó, không phải ứng dụng dữ liệu lớn nào cũng cần đến Hadoop (Ecosystem)Y.
Keyword: big data, hadoop, udacity, cloudera, velocity, veracity, volume, variety, value
@Lê Đình Duy
Có thể tìm các câu trả lời cho các câu hỏi này trên Internet; và nói chung đa số sẽ nói về các đặc tính của dữ liệu lớn đó là 3V chính bao gồm Volume (kích thước), Velocity (tốc độ), Variety (tính đa dạng); và 2V khác bao gồm Veracity (tính xác thực) và Value (giá trị) - xem hình dưới đây:
Một cách rõ hơn có thể xem hình sau
Tuy nhiên, nếu đứng ở góc nhìn của những người làm, học, và ứng dụng Hadoop, thì đơn giản như trong video clip này - đó là: big data dùng để chỉ dữ liệu quá lớn đến nỗi không thể xử lí trên một máy đơn.
Như vậy, Dnếu máy đơn của bạn có cấu hình mạnh - ví dụ 10TB đĩa cứng - thì kích thước dữ liệu mà hệ thống của bạn cần lưu trữ và xử lí phải trên 10TB mới được coi là dữ liệu lớnU. Trong khi đó, một máy đơn chỉ có 500GB đĩa cứng thì dữ liệu trên 1TB đã được coi là dữ liệu lớn.
Với góc nhìn này, không nhất thiết một hệ thống xử lí dữ liệu cỡ 10TB cần phải dùng Hadoop. Và do đó, không phải ứng dụng dữ liệu lớn nào cũng cần đến Hadoop (Ecosystem)Y.
Keyword: big data, hadoop, udacity, cloudera, velocity, veracity, volume, variety, value
@Lê Đình Duy