Không ít người nghĩ rằng cứ có dữ liệu/dữ liệu lớn, cùng các công cụ phân tích - khai thác dữ liệu tiên tiến là có thể thành công. Tuy nhiên, câu hỏi đặt ra trước tiên đó là dữ liệu đó đã sẵn sàng chưa? Trong bài giảng video (xem link bên dưới), tác giả Brandon Rohrer đã chỉ ra các ý chính gồm:
1. Relevant
2. Connected
3. Accurate
4. Enough to work with
2. Connected
3. Accurate
4. Enough to work with
Việc này cũng giống như để có bánh pizza ngon, các thành phần chế biến phải đầy đủ.
Lấy ví dụ liên quan đến việc các xe vận tải hành khách phải gắn hộp đen. Có dữ liệu từ hộp đen của số lượng lớn xe chỉ mới thoả được tiêu chí thứ 4. Accurate dùng để chỉ dữ liệu của hộp đen có đủ chính xác và tin cậy (ví dụ không bị làm giả hoặc thay đổi). Connected để chỉ dữ liệu có đầy đủ không (ví dụ nếu xe tắt hộp đen thì dữ liệu sẽ không đầy đủ). Và Relevant để chỉ dữ liệu có phù hợp cho trả lời câu hỏi không (ví dụ với các dữ liệu đó, có đủ để trả lời câu hỏi xe nào sẽ có tiềm năng gây tai nạn ở lần chạy kế tiếp).