Giới thiệu về Dữ liệu lớn (Big Data)

Dữ liệu là thứ mà tất cả chúng ta thường xuyên gặp trong cuộc sống hàng ngày. Nó có thể là bất cứ thứ gì ví dụ như nhạc hoặc video được chuyển từ một thiết bị di động sang thiết bị di động khác, nó có thể là dữ liệu khi sử dụng internet 4G, hay tất cả ảnh của bạn trên ổ đĩa hoặc đơn giản là dữ liệu khi ta đăng nhập vào tài khoản mạng xã hội.

Cùng với thời gian và tiến bộ trong CNTT, nhu cầu sử dụng mạng xã hội đặc biệt cho các doanh nghiệp cũng tăng lên. Ta có thể thấy các nền tảng như WhatsApp và Skype hiện nay tập trung phát triển các phiên bản dành cho doanh nghiệp. Lý do là chúng ta đang dần chuyển sang thời đại dữ liệu. Nếu phân tích các hoạt động hàng ngày, bạn sẽ nhận ra, dữ liệu đó là một cái gì đó mà ta tiếp tục sử dụng bây giờ và mãi về sau.

Do việc sử dụng ngày càng nhiều phương tiện mạng xã hội, Wi-Fi công cộng, có một lượng dữ liệu khổng lồ được tạo ra gần như mỗi ngày. Vì vậy, để phân biệt dữ liệu này với dữ liệu truyền thống, người ta phát sinh ra thuật ngữ Dữ liệu lớn (Big data).

Dữ liệu lớn có thể được định nghĩa là một khối lượng lớn dữ liệu không thể lưu trữ trong hệ thống cơ sở dữ liệu truyền thống. Big Data không chỉ lớn mà còn là một bộ dữ liệu thực sự phức tạp mà chúng ta không thể xử lý hoặc thực hiện bất kỳ thao tác nào trên nó bằng cách sử dụng các ứng dụng cơ sở dữ liệu đơn giản, hàng ngày.

Làm cách nào chúng ta nhận ra Dữ liệu lớn?

Bất kỳ dữ liệu nào không thể xử lý hoặc phân tích trong các hệ thống truyền thống đều có thể được gọi là Dữ liệu lớn. Vì vậy, chúng ta không thể thực sự định nghĩa Big Data, nhưng Big Data có thể nhận dạng thông qua những đặc điểm nhất định sau:

  1. Tính đa dạng (Variety): Khi nói đến Big Data, chúng ta không giới hạn nó với dữ liệu có cấu trúc, nó cũng có thể không được cấu trúc. Mạng xã hội đang thực sự là một nhu cầu trong lớn hiện nay, dữ liệu được đăng trên phương tiện mạng xã hội không phải lúc nào cũng chỉ là các ký tự hoặc số. Nó có thể là hình ảnh, âm nhạc, video, GIF và tất cả các loại hình ảnh thông tin (infographic). Tất cả điều này thể hiện dưới dạng một bộ dữ liệu. Sự đa dạng như vậy có thể được mô tả là dữ liệu lớn
  2. Số lượng (Volume):Số lượng có thể là một tín hiệu nhận dạng định lượng về dữ liệu lớn tạo ra bởi tổ chức hay ngành công nghiệp. Nó có thể được cấu trúc hay có thể là một sự kết hợp của các dữ liệu được cấu trúc hay không cấu trúc.
  3. Tần suất (Velocity): Nó có thể được nhận ra bởi tần suất dữ liệu được tạo ra.
  4. Sư không chắc chắn (Veracity): là sự không chắc chắn của dữ liệu. Theo một cuộc khảo sát, 27% các ngành công nghiệp không nhận thức được về các dữ liệu không chính xác đã được tạo ra bởi các nguồn.

Dữ liệu lớn là điều lớn lao tiếp theo trong lĩnh vực CNTT, không chỉ cách mạng hóa lĩnh vực CNTT mà còn ảnh hưởng đến hoạt động marketing và kinh doanh với một chiều hướng rất tích cực. Để tất cả nội dung nói về Dữ liệu lớn, hay ý tưởng về Dữ liệu lớn là gì, không thực sự có thể nói được đầy đủ. Điều quan trọng là ta cần hiểu về khoa học và cách xử lý dữ liệu khổng lồ như vậy, mà người ta gọi là Xử lý phân tích dữ liệu Data Analysis.

Doanh nghiệp có nhu cầu phân tích tất cả dữ liệu cùng một lúc, bất kể bản chất và kích thước của dữ liệu và chuyển đổi nó thành thông tin chi tiết. Những thông tin chi tiết này được các doanh nghiệp sử dụng vào các lĩnh vực khác để hiểu ý nghĩa ẩn của dữ liệu. Đối với các doanh nghiệp, nó có thể là về khách hàng, nhân khẩu học của khách hàng và đối tượng mục tiêu. Việc trích xuất thông tin có liên quan và trình bày thông tin đó dưới dạng trực quan được gọi là Phân tích dữ liệu lớn Big Data Analytics.

Kết luận

Big Data không nghi ngờ gì nữa là nội dung quan trọng trong lĩnh vực IT và cả các lĩnh vực khác trong nền kinh tếhiện nay. Tầm quan trọng của Big Data được thể hiện qua việc phát triển và áp dụng bởi rất nhiều doanh nghiệp khổng lồ hiện tại và trong tương lai. Và chắc chắn chúng ta có thể nhìn thấy nhu cầu về các chuyên gia Big Data hay Data Analytics sẽ còn tăng theo cấp số nhân.