Mọi người thường nghe nhắc tới BIG DATA khi nhắc tới thời đại của internet. Vậy BIG DATA là gì ? Chúng dùng để làm gì và ứng dụng ở đâu ? Mời các bạn cùng mình tìm hiểu trong bài viết này.
Facebook có một hệ thống BIG DATA của riêng mình. Google cũng có, Twitter cũng có. Người ta khai thác big data nhằm vào các mục đích khác nhau như giải quyết vấn đề xã hội, cảnh báo thảm họa, phân tích hành vi người dùng … vậy Big data là gì và chúng dùng để làm gì ? Cùng tìm hiểu ngay sau đây.
Công nghệ Big Data đã đạt đến đỉnh cao trong việc thực hiện các chức năng của nó. Bạn có thể nhận biết về chức năng, quy trình, sử dụng và tầm quan trọng của công nghệ Big Data. Tháng 8 năm 2015, Big Data đã vượt ra khỏi bảng xếp hạng những công nghệ mới nổi Cycle Hype của Gartner và tạo một tiếng vang lớn cho xu hướng công nghệ của thế giới.
Big data là gì ?
Mục lục
Dữ liệu lớn ( Big data ) là một thuật ngữ cho rằng việc xử lý một tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Bao gồm các thách thức phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư. Thuật ngữ này thường chỉ đơn giản đề cập đến việc việc sử dụng các phân tích dự báo, phân tích hành vi người dùng, hoặc một số phương pháp phân tích dữ liệu tiên tiến khác trích xuất giá trị từ dữ liệu mà ít khi đề cập đến kích thước của bộ dữ liệu.
Các bạn có thể xem thêm tại WikiPedia.org.
Các đặc tính của Big Data
Có tới 4 đặc tính mà người ta tổng kết được từ các nguồn big data khác nhau.
Volume – Khối lượng hoặc kích thước lớn.
Chính cái tên của nó cũng đã nói lên điều này. Kích thước của dữ liệu quyết định chủ yếu vai trò xác định giá trị bên ngoài của dữ liệu. Hơn nữa, whether một dữ liệu đặc thù có thể cân nhắc là BigData hay không là dựa trên kích thước của nó. Do đó, Volume là một đặc điểm cần thiết để xác định BigData.
Variety – Đa dạng về trạng thái.
Variety nói đến sự hỗn tạp các tài nguyên và trạng thái tự nhiên của dữ liệu cả cấu trúc và không cấu trúc. Trong thời gian trước đây, bảng tính và cơ sở dữ liệu là nguồn duy nhất của dữ liệu được coi như tất cả của các ứng dụng. Ngày nay, dữ liệu trong các mẫu emails, ảnh, video, thiết bị điều khiển, file PDF, audio, .. đang được cân nhắc trong các ứng dụng. Tính đa dạng của dữ liệu không cấu trúc là một vấn đè lớn trong lưu trữ, khái thác dữ liệu hiệu quả.
Velocity
Velocity nói đến tốc độ tăng trưởng của dữ liệu. Dữ liệu tăng nhanh như thế nào và quá trình yêu gặp các yêu cầu, xác định tiềm năng của dữ liệu có thể khai thác.
Big Data Velocity nói đến tốc độ dòng dữ liệu từ các nguồn như quán trình kinh doanh, hoạt động của ứng dụng, mạng và các phương tiện truyền thông, các cảm biến, các thiết bị di động, … Dòng dữ liệu to lớn và vẫn không ngừng.
Variability
Sự biến thiên của dữ liệu theo thời gian gấy khó khăn cho việc xử lý và quản lý dữ liệu hiệu quả.
Những nguồn tạo ra big data
Những nguồn sau đây tạo ra nhiều dữ liệu và thường xuyên hàng ngày.
- Hộp đen dữ liệu: đây là dữ liệu được tạo ra bởi máy bay, bao gồm máy bay phản lực và trực thăng. Hộp đen dữ liệu này bao gồm thông tin tạo ra bởi giọng nói của phi hành đoàn, các bản thu âm và thông tin về chuyến bay
- Dữ liệu từ các kênh truyền thông xã hội: Đây là dữ liệu được tạo ra và phát triển bởi như các trang web truyền thông xã hội như Twitter, Facebook, Instagram, Pinterest và Google+.
- Dữ liệu giao dịch chứng khoán: Đây là số liệu từ thị trường chứng khoán đối với quyết định mua và bán cổ phiếu được thực hiện bởi khách hàng
- Dữ liệu điện lực: đây là dữ liệu tạo ra bởi điện lực. Nó bao gồm các thông tin cụ thể từ các điểm giao nhau của các nút thông tin sử dụng
- Dữ liệu giao thông: dữ liệu này bao gồm sức chưa và các mẫu phương tiện giao thông, độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao thông
- Dữ liệu các thiết bị tìm kiếm: đây là dữ liệu được tạo ra từ các công cụ tìm kiếm và đây cũng là nguồn dữ liệu lớn nhất của Big Data. Công cụ tìm kiếm có cơ sở dữ liệu cực kỳ rộng lớn, nơi họ có thể tìm thấy dữ liệu họ cần
Chúng ta có thể lấy các thí nghiệm của Máy gia tốc hạt lớn (LHC) ở Châu Âu làm ví dụ cho Big Data. Khi các thí nghiệm này được tiến hành, kết quả sẽ được ghi nhận bởi 150 triệu cảm biến với nhiệm vụ truyền tải dữ liệu khoảng 40 triệu lần mỗi giây. Kết quả là nếu như LHC ghi nhận hết kết quả từ mọi cảm biến thì luồng dữ liệu sẽ trở nên vô cùng lớn, có thể đạt đến 150 triệu petabyte mỗi năm, hoặc 500 exabyte mỗi ngày, cao hơn 200 lần so với tất cả các nguồn dữ liệu khác trên thế giới gộp loại.
Trong mỗi giây như thế lại có đến khoảng 600 triệu vụ va chạm giữa các hạt vật chất diễn ra, nhưng sau khi chọn lọc lại từ khoảng 99,999% các luồng dữ liệu đó, chỉ có tầm 100 vụ va chạm là được các nhà khoa học quan tâm. Điều này có nghĩa là cơ quan chủ quản LHC phải tìm những biện pháp mới để quản lý và xử lí hết mớ dữ liệu khổng lồ này.
Một ví dụ khác, khi Sloan Digital Sky Sruver, một trạm quan sát vũ trụ đặt tại New Mexico, bắt đầu đi vào hoạt động hồi năm 2000, sau một vài tuần nó đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà ngành thiên văn học đã từng thu thập trong quá khứ, khoảng 200GB mỗi đêm và hiện tổng dung lượng đã đạt đến hơn 140 terabyte. Đài quan sát LSST để thay thế cho SDSS dự kiến khánh thành trong năm 2016 thì sẽ thu thập lượng dữ liệu tương đương như trên nhưng chỉ trong vòng 5 ngày.
Hoặc như công tác giải mã di truyền của con người chẳng hạn. Trước đây công việc này mất đến 10 năm để xử lí, còn bây giờ người ta chỉ cần một tuần là đã hoàn thành. Còn Trung tâm giả lập khí hậu của NASA thì đang chứa 32 petabyte dữ liệu về quan trắc thời tiết và giả lập trong siêu máy tính của họ. Việc lưu trữ hình ảnh, văn bản và các nội dung đa phương tiện khác trên Wikipedia cũng như ghi nhận hành vi chỉnh sửa của người dùng cũng cấu thành một tập hợp Big Data lớn.
Còn gì nữa ?
- Các hệ thống RFID (một dạng kết nối tầm gần, như kiểu NFC nhưng có tầm hoạt động xa hơn và cũng là thứ dùng trong thẻ mở cửa khách sạn) tạo ra lượng dữ liệu lớn hơn 1.000 lần so với mã vạc truyền thống
- Chỉ trong vòng 4 giờ của ngày “Black Friday” năm 2012, cửa hàng Walmart đã phải xử lí hơn 10 triệu giao dịch tiền mặt, tức là khoản 5.000 giao diện mỗi giây.
- Dịch vụ chuyển phát UPS nhận khoảng 39,5 triệu yêu cầu từ khách hàng của mình mỗi ngày
- Dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vòng một ngày mà thôi
- Trên Twitter có 500 triệu dòng tweet mới mỗi ngày, Facebook thì có 1,15 tỉ thành viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video…
Những thành tựu của big data
Phân tích tập dữ hợp liệu có thể tìm ra tương quan mới tới “xu hướng kinh doanh hiện tại, phòng bệnh tật, chống tội phạm và vân vân”. Các nhà khoa học, điều hành doanh nghiệp, y bác sĩ, quảng cáo và các chính phủ cũng thường xuyên gặp những khó khăn với các tập hợp dữ liệu lớn trong các lĩnh vực bao gồm tìm kiếm internet, thông tin tài chính doanh nghiệp. Các nhà khoa học gặp giới hạn trong công việc cần tính toán rất lớn, bao gồm khí tượng học, bộ gen, mạng thần kinh, các mô phỏng vật lý phức tạp, sinh vật học và nghiên cứu môi trường.
Ngày nay, dữ liệu chính là tiền bạc của doanh nghiệp. Lấy ví dụ, những thông tin về thói quen, sở thích của khách hàng có được từ lượng dữ liệu khổng lồ các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần doanh nghiệp biết khai thác hiệu quả, Big Data là công cụ không chỉ giúp tăng lợi nhuận cho chính họ mà còn giúp tiết kiệm thời gian cho khách hàng trong mua sắm.
Nhờ giải pháp Big Data, năm 2013, Amazon đạt doanh thu tới 74 tỷ USD, IBM đạt hơn 16 tỷ USD. Big Data là nhu cầu tăng trưởng lớn đến nỗi từ năm 2010, Software AG, Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỷ USD cho các công ty chuyên về quản lý và phân tích dữ liệu. Với tiềm năng ưu việt, Big Data không chỉ ứng dụng trong kinh doanh mà còn có khả năng tác động đến hầu hết ngành nghề khác. Chính phủ các nước có thể ứng dụng Big Data để dự đoán tỷ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục phù hợp hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, thậm chí dự đoán sự phát triển của mầm bệnh và khoanh vùng sự lây lan của bệnh dịch. Nói cách khác, Big Data sẽ là công cụ thúc đẩy sự phát triển kinh tế – xã hội trong tương lai. Theo ước tính của Gartner, một công ty nghiên cứu và tư vấn về công nghệ hàng đầu của Mỹ, tới năm 2015 Big Data có thể tạo ra thêm 4,4 triệu việc làm trong ngành IT toàn cầu và trong 5 năm (2012-2017), thế giới sẽ đầu tư 232 tỷ USD cho Big Data.
Thành công điển hình của việc áp dụng công nghệ đại dữ liệu vào kinh doanh là Tesla, hãng đi tiên phong trong việc sản xuất ô tô chạy bằng điện.
Mỗi chiếc xe do Tesla sản xuất đều được gắn một thiết bị cảm biến có khả năng gửi những thông tin liên quan đến vấn đề kỹ thuật, hoạt động của xe trở về nhà sản xuất để xử lý kịp thời những trục trặc nếu có trước khi sự cố xảy ra. Trong một buổi hội nghị của Gartner, CIO Jay Vijayan nói về thực trạng sử dụng Big Data của Tesla: “Nền tảng big data báo cho chúng tôi biết khi nào chiếc xe đang bị lỗi để nhóm kỹ sư kịp thời hành động.”
Bằng việc kết nối với khách hàng thường xuyên, liên tục và trực tiếp, thay vì thông qua bên trung gian, Tesla luôn thu về những dữ liệu chính xác và kịp thời nhất, cho phép họ cải thiện trải nghiệm người dùng và cạnh tranh với những hãng sản xuất ô tô chạy bằng xăng vốn đang rất phổ biến khác.
Kết bài
Big data là một trong những lợi thế của doanh nghiệp nếu biết dùng chúng và phân tích đúng. Big data hiện nay đang là thách thức cho tất cả các doanh nghiệp khai thác thông tin từ hàng tỉ thông tin mỗi ngày. Doanh nghiệp nào nắm được phân tích thông tin từ big data, doanh nghiệp đó sẽ có nhiều lợi thế hơn hết trên thương trường.
Hiện nay doanh nghiệp Việt Nam đang bỏ qua nhiều cơ hội từ dữ liệu big data. Những khóa đào tạo khai thác big data vẫn còn ít và chưa được quan tâm.