Trong số tất cả các định nghĩa được cung cấp cho dữ liệu lớn “Big Data”, tôi thích nhất là nó có nghĩa là dữ liệu quá lớn, quá nhanh hoặc quá khó để các công cụ hiện có xử lý. Ở đây, “quá lớn” có nghĩa là các tổ chức ngày càng phải xử lý các bộ sưu tập dữ liệu quy mô petabyte đến từ các luồng nhấp chuột, lịch sử giao dịch, cảm biến và các nơi khác. “Quá nhanh” có nghĩa là dữ liệu không chỉ lớn mà còn phải được xử lý nhanh chóng - ví dụ: để thực hiện phát hiện gian lận tại điểm bán hàng hoặc xác định quảng cáo nào sẽ hiển thị cho người dùng trên trang web. “Quá khó” là yêu cầu dữ liệu không vừa khít với công cụ xử lý hiện có hoặc cần một số loại phân tích mà các công cụ hiện có không thể cung cấp dễ dàng. Dữ liệu lớn thường được đặc trưng với năm chữ V: Volume - khối lượng cho kích thước của dữ liệu phóng to từ mức TB đến PB, Variety - sự đa dạng cho nhiều loại, Velocity - tốc độ cho tốc độ xử lý hiệu quả, Veracity - tính xác thực để theo đuổi chất lượng cao của dữ liệu và Value - giá trị cho giá trị cao.
Tài liệu tham khảo
1. S. Madden, "From Databases to Big Data," in IEEE Internet Computing, vol. 16, no. 3, pp. 4-6, May-June 2012, doi: 10.1109/MIC.2012.50.
2. H. Mei, and L. Gao, “Big data standardization white paper v2.0,” China electronics technology standardization institute, 2016.