Nghiên Cứu Một Số Vân đề Về BIG Data Và ứng Dụng Trong Phân Tích ...

Tải bản đầy đủ (.pdf) (64 trang)
  1. Trang chủ
  2. >>
  3. Thạc sĩ - Cao học
  4. >>
  5. Khoa học tự nhiên
Nghiên cứu một số vân đề về BIG data và ứng dụng trong phân tích kinh doanh (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.53 MB, 64 trang )

ĐẠI HỌC THÁI NGUYÊNTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNGLUẬN VĂN THẠC SĨTÊN ĐỀ TÀINGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ BIG DATAVÀ ỨNG DỤNG TRONG PHÂN TÍCH KINH DOANHGiáo viên hướng dẫn: GS.TS Vũ Đức ThiHọc viên thực hiện: Phạm Việt AnhLớp: CK16HThái Nguyên, tháng 1 năm 2019ĐẠI HỌC THÁI NGUYÊNTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNGLUẬN VĂN THẠC SĨTên đề tài Nghiên cứu một số vấn đề về Big Datavà ứng dụng trong phân tích kinh doanhGiáo viên hướng dẫn: GS.TS Vũ Đức ThiHọc viên thực hiện: Phạm Việt AnhLớp: CK16HThái Nguyên, tháng 1 năm 20191CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ BIG DATAVÀ QUY TRÌNH PHÂN TÍCH DỮ LIỆU LỚN1.1 Giới thiệu tổng quan về Big DataTrong 22 năm qua, dữ liệu đã tăng lên với một quy mô lớn trong các lĩnh vựckhác nhau. Theo một báo cáo từ Tập đoàn Dữ liệu Quốc tế (IDC), trong năm 2011dung lượng dữ liệu được tạo ra và sao chép trên toàn thế giới là 1.8ZB, tăng gần chínlần trong năm năm [1]. Con số này sẽ không dừng lại ở đó mà sẽ tăng gấp đôi ít nhấthai năm một lần trong tương lai gần.Dưới sự phát triển mạnh mẽ của CNTT và sự gia tăng một cách bùng nổ của dữliệu toàn cầu, thuật ngữ Big Data đã trở nên quen thuộc và thường được dùng để mô tảcác hệ thống dữ liệu lớn. So với các tập dữ liệu truyền thống trước đây, dữ liệu lớnthường bao gồm các khối dữ liệu phi cấu trúc cần thêm phân tích trong thời gian thực.Ngoài ra, dữ liệu lớn cũng mang lại những cơ hội mới để khám phá giá trị mới, giúpchúng ta có được một sự hiểu biết một cách sâu sắc về các giá trị tiềm ẩn, cũng nhưnhững thách thức mới. Ví dụ là làm thế nào để tổ chức và quản lý các tập dữ liệu nhưvậy một cách hiệu quả.Trong những năm trở lại đây, nhiều ngành công nghiệp đang trở nên quan tâmđến tiềm năng to lớn của Big Data, nhiều cơ quan chính phủ đã công bố kế hoạch lớntrong việc phát triển nghiên cứu và ứng dụng Big Data [2]. Không chỉ vậy, các vấn đềliên quan tới Big Data cũng luôn được nhắc đến trên các phương tiện truyền thôngcông cộng, chẳng hạn như Economist [3][4], New York Times [5] và Nation PublicRadio [6][7]. Hai tạp chí khoa học đầu ngành là Nature và Science cũng đã mở mụcriêng để thảo luận về những thách thức và các tác động của Big Data [8][9]. Tới đây,có thể nói rằng kỷ nguyên của Big Data đã đến [10].Ngày nay, Big Data có liên quan đến dịch vụ của các công ty về Internet đềuphát triển nhanh chóng. Ví dụ, Google xử lý dữ liệu khoảng hàng trăm Petabyte (PB),Facebook đã tạo khoảng hơn 10 PB dữ liệu log mỗi tháng, Taobao một công ty concủa Alibaba tạo ra hàng chục Terabyte (TB) dữ liệu về giao dịch trực tuyến mỗi ngày.1.1.1 Những định nghĩa và đặc trưng của Big DataBig Data là một khái niệm trừu tượng và có rất nhiều định nghĩa về Big Data.Ngay như tên gọi là dữ liệu lớn hay dữ liệu khổng lồ thì nó còn có một số đặc trưng2khác trong đó xác định sự khác biệt giữa nó và “dữ liệu lớn” hay “dữ liệu rất lớn”.Hiện nay, mặc dù tầm quan trọng của Big Data đã được thừa nhận rộng rãi,nhưng vẫn có nhiều những ý kiến về định nghĩa của nó. Một cách tổng quát có thểđịnh nghĩa rằng Big Data có nghĩa là các bộ dữ liệu không thể được nhận diện, thu hồi,quản lý và xử lý bằng CNTT truyền thống và các công cụ phần mềm/ phần cứng trongmột khoảng thời gian có thể chấp nhận được. Phát sinh từ nhiều sự quan tâm, cácdoanh nghiệp khoa học và công nghệ, các nhà nghiên cứu, các nhà phân tích dữ liệu vàcác kỹ thuật viên có những định nghĩa khác nhau về Big Data. Sau đây là một số địnhnghĩa về Big Data mang tới một sự hiểu biết tốt hơn về những ý nghĩa xã hội, kinh tếvà công nghệ rộng lớn của Big Data.Năm 2010, Apache Hadoop định nghĩa dữ liệu lớn như “bộ dữ liệu mà khôngthể thu thập, quản lý và xử lý bởi các máy tính nói chung trong một phạm vi chấp nhậnđược”. Cũng trên cơ sở đó, vào tháng 5 năm 2011, McKinsey & Company, một côngty tư vấn toàn cầu công bố Big Data như một địa hạt mới cho sự đổi mới, cạnh tranhvà hiệu suất. Big Data có nghĩa là những bộ dữ liệu mà không có thể được thu lại, lưutrữ và quản lý bởi phần mềm cơ sở dữ liệu cổ điển. Định nghĩa này gồm hai ý nghĩa:Thứ nhất, dung lượng của các tập dữ liệu mà phù hợp với tiêu chuẩn Big Data đangthay đổi và có thể tăng trưởng theo thời gian hoặc với những tiến bộ công nghệ. Thứhai, dung lượng của các tập dữ liệu mà phù hợp với tiêu chuẩn của Big Data trong cácứng dụng khác nhau trong mỗi ứng dụng. Hiện nay, Big Data thường từ vài TB đến vàiPB [10]. Từ định nghĩa của McKinsey & Company, có thể thấy rằng dung lượng củamột tập dữ liệu không phải là tiêu chí duy nhất cho Big Data. Quy mô dữ liệu ngàycàng phát triển và việc quản lý nó mà không thể xử lý bằng công nghệ cơ sử dữ liệutruyền thống là hai đăng trưng quan trọng tiếp theo.Dữ liệu lớn đã được định nghĩa từ sớm những năm 2001. Doug Laney, một nhàphân tích của META (nay có tên là công ty nghiên cứu Gartner) định nghĩa nhữngthách thức và cơ hội mang lại của sự tăng trưởng dữ liệu với một mô hình “3Vs”, tứclà sự gia tăng của dung lượng, tốc độ và tính đa dạng trong một báo cáo nghiên cứu[11]. Mặc dù, mô hình này ban đầu không được sử dụng để xác định Big Data, tuynhiên Gatrtner cùng nhiều doanh nghiệp khác bao gồm cả IBM và một số cơ sở nghiêncứu của Microsoft vẫn còn sử dụng mô hình “3Vs” để mô tả về dữ liệu lớn trong vòng10 năm tiếp theo.3Hình 1.1: Mô hình 3Vs của Big DataMô hình “3Vs” được giải thích như sau:- Dung lượng (Volume): Sự sản sinh và thu thập các dữ liệu lớn, quy mô dữ liệu trởnên ngày càng lớn.- Tốc độ (Velocity): Tính kịp thời của dữ liệu lớn, cụ thể là việc thu thập và phân tíchdữ liệu phải được tiến hành nhanh chóng và kịp thời để sử dụng một cách tối đa cácgiá trị thương mại của Big Data.- Tính đa dạng (Variety): Các loại dữ liệu khác nhau bao gồm dữ liệu bán cấu trúc vàphi cấu trúc như âm thanh, video, web, văn bản,…cũng như dữ liệu có cấu trúc truyềnthống.Đến năm 2011, định nghĩa về Big Data đã có sự thay đổi khi một báo cáo củaIDC đã đưa ra một định nghĩa như sau: “Công nghệ Big Data mô tả một thế hệ mớicủa những công nghệ và kiến trúc, được thiết kế để lấy ra giá trị kinh tế từ dung lượngrất lớn của một loạt các dữ liệu bằng cách cho phép tốc độ cao trong việc thu thập,khám phá hoặc phân tích” [1]. Với định nghĩa này, dữ liệu lớn mang trong mình bốnđặc trưng và được hiểu như một mô hình “4Vs”.Năm 2014, Gartner lại đưa ra một khái niệm mới về Big Data qua mô hình“5Vs” với năm tính chất quan trọng của Big Data.4Hình 1.2: Mô hình 5vs của Big DataMô hình “5Vs” được giải thích như sau:- Khối lượng (Volume): Sự sản sinh và thu thập các dữ liệu lớn, quy mô dữ liệutrở nên ngày càng lớn.- Tốc độ (Velocity): Tính kịp thời của dữ liệu lớn, cụ thể là việc thu thập vàphân tích dữ liệu phải được tiến hành nhanh chóng và kịp thời để sử dụng một cách tốiđa các giá trị thương mại của Big Data.- Tính đa dạng (Variety): Các loại dữ liệu khác nhau bao gồm dữ liệu bán cấutrúc và phi cấu trúc như âm thanh, video, web, văn bản,…cũng như dữ liệu có cấu trúctruyền thống.- Tính chính xác (Veracity): Tính hỗn độn hoặc tin cậy của dữ liệu. Với rấtnhiều dạng thức khác nhau của dữ liệu lớn, chất lượng và tính chính xác của dữ liệu rấtkhó kiểm soát. Khối lượng dữ liệu lớn sẽ đi kèm với tính xác thực của dữ liệu.- Giá trị (Value): Đây được coi là đặc điểm quan trọng nhất của dữ liệu lớn.Việc tiếp cận dữ liệu lớn sẽ không có ý nghĩa nếu không được chuyển thành những thứcó giá trị. Giá trị của dữ liệu là đặc điểm quan trọng nhất trong mô hình “5Vs” của BigData.Ngoài ra, Viện tiêu chuẩn và kỹ thuật quốc gia của Hoa Kỳ (NIST) định nghĩa“Dữ liệu lớn có nghĩa là các dữ liệu mà dung lượng dữ liệu, tốc độ thu thập hoặc biểudiễn dữ liệu hạn chế khả năng của việc sử dụng các phương pháp quan hệ truyền thốngđể tiến hành phân tích hiệu quả hoặc các dữ liệu mà có thể được xử lý một cách hiệuquả với các công nghệ”. Định nghĩa này tập trung vào các khía cạnh công nghệ của5Big Data. Nó chỉ ra rằng phương pháp hay công nghệ hiệu quả cần phải được pháttriển và được sử dụng để phân tích và xử lý dữ liệu lớn.1.1.2 Sự phát triển của Big DataCuối những năm 1970, khái niệm “máy cơ sở dữ liệu” nổi lên, đó là một côngnghệ đặc biệt sử dụng cho việc lưu trữ và phân tích dữ liệu. Với sự gia tăng của dunglượng dữ liệu, khả năng lưu trữ và xử lý của một hệ thống máy tính lớn duy nhất trởnên không đủ. Trong những năm 1980, hệ thống “không chia sẻ”- một hệ thống cơ sởdữ liệu song song được đề xuất để đáp ứng nhu cầu của dung lượng dữ liệu ngày càngtăng [12]. Kiến trúc hệ thống không chia sẻ được dựa trên việc sử dụng các cụm vàmỗi máy có riêng bộ xử lý, lưu trữ và đĩa cứng. Hệ thống Teradata là hệ thống cơ sởdữ liệu song song thương mại thành công đầu tiên. Ngày 2 tháng 6 năm 1986, một sựkiện bước ngoặt xảy ra khi Teradata giao hệ thống cơ sở dữ liệu song song đầu tiên vớidung lượng lưu trữ 1TB cho Kmart để giúp các công ty bán lẻ quy mô lớn tại Bắc Mỹmở rộng kho dữ liệu [13]. Trong những năm 1990, những ưu điểm của cơ sở dữ liệusong song đã được công nhận rộng rãi trong lĩnh vực cơ sở dữ liệu.Tuy nhiên, Big Data vẫn còn nhiều thách thức phát sinh. Với sự phát triển củadịch vụ Internet, các nội dung chỉ mục và truy vấn đã được phát triển nhanh chóng. Dođó, công cụ tìm kiếm của các công ty đều phải đối mặt với những thách thức của việcxử lý dữ liệu lớn. Google tạo ra mô hình lập trình GFS [14] và MapReduce [15] để đốiphó với những thách thức mang lại về việc quản lý và phân tích dữ liệu ở quy môInternet. Ngoài ra, nội dung được sinh ra bởi người sử dụng, cảm biến và các nguồn dữliệu phổ biến khác cũng tăng, do đó yêu cầu một sự thay đổi cơ bản về kiến trúc tínhtoán và cơ chế xử lý dữ liệu quy mô lớn.Vào tháng 1 năm 2007, Jim Gray là một nhà tiên phong về phần mềm cơ sở dữliệu đã gọi sự biến đổi là “mô hình thứ tư” [16]. Ông nghĩ rằng cách duy nhất đối phóvới mô hình như vậy là phát triển một thế hệ mới các công cụ máy tính để quản lý,trực quan hóa và phân tích dữ liệu khổng lồ. Trong tháng 6 năm 2011, một sự kiệnbước ngoặt xảy ra khi EMC/IDC công bố một báo cáo nghiên cứu có tựa đề Trích xuấtgiá trị từ sự hỗn độn, đây là lần đầu tiên đưa ra khái niệm và tiềm năng của Big Data.Báo cáo nghiên cứu này gây ra mối quan tâm lớn trong cả công nghiệp và học thuật vềBig Data.6Trong vài năm qua, gần như những công ty lớn bao gồm EMC, Oracle, IBM,Microsoft, Google, Amazon, Facebook,… đã bắt đầu cá dự án Big Data của họ. Từnăm 2005, IBM đã đầu tư 16 tỷ USD vào 30 sự tiếp nhận liên quan đến dữ liệu lớn. Vềhọc thuật, Big Data cũng chiếm địa vị nổi bật. Trong năm 2008, Nature công bố mộtvấn đề đặc biệt về Big Data. Năm 2011, Science cũng đưa ra một vấn đề đặc biệt vềcông nghệ chủ chốt “xử lý dữ liệu” trong Big Data. Năm 2012, Tạp chí Hiệp hộiNghiên cứu châu Âu Tin học và Toán học (ERCIM) đăng một vấn đề đặc biêt về dữliệu lớn. Vào đầu năm 2012, một báo cáo mang tên Big Data, Big Impact trình bày tạidiễn đàn Davos ở Thụy Sĩ, đã thông báo rằng Big Data đã trở thành một loại tài sảnkinh tế mới, giống như tiền tệ hoặc vàng.Nhiều chính phủ quốc gia như Mỹ cũng đã rất quan tâm tới dữ liệu lớn. Trongtháng 3 năm 2012, chính quyền Obama đã công bố một khoản đầu tư 200 triệu USDđể khởi động “Kế hoạch nghiên cứu và phát triển Big Data”. Tháng 7 năm 2012 dự án“Đẩy mạnh công nghệ thông tin Nhật Bản” được ban hành bởi Bộ Nội vụ và Truyềnthông Nhật Bản chỉ ra rằng sự phát triển Big Data nên có một chiến lược quốc gia vàcác công nghệ ứng dụng nên là trọng tâm. Cũng trong thời gian đó, Liên Hiệp Quốc đãđưa ra báo cáo Big Data cho phát triển, trong đó tóm tắt cách mà các chính phủ sửdụng Big Data để phục vụ và bảo vệ người dân một cách tốt hơn.Công ty nghiên cứu thị trường IDC cho thấy doanh thu đến từ thị trường BigData sẽ tăng lên 16,9 tỷ USD vào năm 2015 và sẽ tiếp tục tăng trưởng kép với tốc độ27% và đạt đến 32,4 tỷ USD vào năm 2017.1.1.3 Những thách thức mà Big Data mang lạiVới sự gia tăng một cách mạnh mẽ của dữ liệu trong kỷ nguyên Big Data đãmang tới những thách thức rất lớn về việc thu thập, lưu trữ, quản lý và phân tích dữliệu. Hệ thống quản lý và phân tích dữ liệu truyền thống được dựa trên hệ thống quảnlý cơ sở dữ liệu quan hệ (RDBMS). Tuy nhiên, RDBMS chỉ áp dụng cho các dữ liệucó cấu trúc, khác với những dữ liệu bán cấu trúc hoặc không có cấu trúc. Ngoài ra,RDBMS đang ngày càng sử dụng nhiều phần cứng đắt tiền. Các RDBMS truyền thốngkhông thể xử lý dung lượng rất lớn và không đồng nhất của Big Data. Cộng đồngnghiên cứu đã đề xuất một số giải pháp theo các quan điểm khác nhau. Đối với cácgiải pháp lưu trữ vĩnh viễn và quản lý các tập dữ liệu quy mô lớn không có trật tự, hệthống tập tin được phân phối và cơ sở dữ liệu NoSQL là những lựa chọn tốt. Những7frameworks lập trình như vậy đã đạt được thành công lớn trong các bài toán xử lýcụm, đặc biệt đối với lập thứ hạng trang web (webpage ranking). Nhiều ứng dụng dữliệu lớn có thể được phát triển dựa trên những công nghệ hoặc nền tảng cách mạngnày.Các thách thức chính mà Big Data mang lại:- Biểu diễn dữ liệu: Nhiều bộ dữ liệu có mức độ không đồng nhất trong kiểu,cấu trúc, ngữ nghĩa, tổ chức, độ chi tiết và khả năng tiếp cận. Biểu diễn dữ liệu nhằmmục đích làm cho dữ liệu có ý nghĩa hơn trong việc phân tích của máy tính và sự giảithích của người dùng. Tuy nhiên, việc biểu diễn dữ liệu không đúng cách sẽ làm giảmgiá trị ban đầu của dữ liệu và thậm chí có thể gây cản trở cho việc phân tích dữ liệu.Biểu diễn dữ liệu hiệu quả sẽ phản ánh cấu trúc, lớp và kiểu dữ liệu cũng như các côngnghệ tích hợp, để cho phép hoạt động hiệu quả trên các tập dữ liệu khác nhau.- Giảm sự dư thừa và nén dữ liệu: Giảm sự dư thừa và nén dữ liệu là cách hiệuquả để giảm chi phí gián tiếp của toàn bộ hệ thống trên tiền đề rằng các giá trị tiềmnăng của dữ liệu không bị ảnh hưởng. Ví dụ, hầu hết các dữ liệu được tạo ra bởi cácmạng cảm biến là rất cần thiết, trong đó có thể được logic và nén ở các đơn đặt hàngcủa các cường độ.- Quản lý vòng đời của dữ liệu: Vòng đời của dữ liệu là chuỗi các giai đoạn màmột đơn vị dữ liệu từ thế hệ ban đầu được thu thập, lưu trữ đến khi bị xóa bỏ và kếtthúc vòng đời hữu ích của nó. So với tiến bộ của hệ thống lưu trữ tương ứng, cảm biếnvà máy tính đang tạo ra dữ liệu với quy mô và tốc độ chưa từng có. Điều này đã tạo rarất nhiều thách thức, một trong số đó là hệ thống lưu trữ hiện đại không thể hỗ trợ dữliệu lớn như vậy. Vì vậy, một nguyên tắc quan trọng liên quan đến các giá trị phân tíchcần được phát triển để quyết định dữ liệu nào sẽ được lưu trữ và dữ liệu nào sẽ đượcloại bỏ.- Cơ chế phân tích: Hệ thống phân tích Big Data sẽ xử lý khối lượng dữ liệukhông đồng nhất trong một thời gian giới hạn. Tuy nhiên, RDBMS truyền thống đượcthiết kế với sự thiếu khả năng thay đổi và khả năng mở rộng, do đó không thể đáp ứngcác yêu cầu về hiệu suất. Cơ sở dữ liệu không quan hệ đã chỉ ra những lợi thế riêngcủa mình trong việc xử lý dữ liệu phi cấu trúc và bắt đầu trở thành đề tài chủ đạo trongphân tích Big Data. Mặc dù vậy, vẫn còn một số vấn đề về cơ sở dữ liệu không quanhệ trong hoạt động và những ứng dụng cụ thể của chúng. Điều này dẫn tới việc cần tìm8một giải pháp thỏa hiệp giữa RDBMS và cơ sở dữ liệu không quan hệ. Ví dụ, một sốdoanh nghiệp đã sử dụng một kiến trúc cơ sở dữ liệu hỗn hợp mà tích hợp những ưuđiểm của cả hai loại cơ sở dữ liệu như Facebook và Taobao.- Bảo mật dữ liệu: Hầu như các nhà cung cấp dịch vụ hoặc chủ sở hữu dịch vụBig Data có thể không duy trì và phân tích một cách hiệu quả các tập dữ liệu lớn nhưvậy vì khả năng hạn chế của họ. Họ phải dựa vào các chuyên gia hoặc các công cụ đểphân tích dữ liệu như vậy, làm tăng rủi ro bảo mật.- Quản lý năng lượng: Năng lượng tiêu thụ của hệ thống máy tính lớn đã thuhút nhiều sự quan tâm từ cả quan điểm kinh tế và môi trường. Với sự gia tăng củadung lượng dữ liệu và nhu cầu phân tích, xử lý, lưu trữ và truyền tải thì Big Data chắcchắn sẽ tiêu thụ ngày càng nhiều năng lượng điện. Vì vậy, cơ chế kiểm soát và quản lýđiện năng tiêu thụ cấp hệ thống sẽ được thành lập với Big Data trong khi khả năng mởrộng và khả năng tiếp cận được đảm bảo.- Khả năng mở rộng và thay đổi: Hệ thống phân tích Big Data phải hỗ trợ tậpdữ liệu hiện tại và tương lai. Thuật toán phân tích phải có khả năng xử lý các tập dữliệu ngày càng mở rộng và phức tạp hơn.- Sự hợp tác: Phân tích các dữ liệu lớn là một nghiên cứu liên ngành, trong đóyêu cầu các chuyên gia trong các lĩnh vực khác nhau hợp tác để thu thập các dữ liệu.Một kiến trúc mạng lưới Big Data toàn diện phải được thiết lập để giúp các nhà khoahọc và kỹ sư trong các lĩnh vực khác nhau truy cập các loại dữ liệu khác nhau và sửdụng đầy đủ chuyên môn của họ, phối hợp để hoàn thành các mục tiêu phân tích.1.1.4 Những công nghệ trong Big DataCó rất nhiều công nghệ gắn liền với Big Data, ở phần này sẽ giới thiệu một sốcông nghệ cơ bản liên quan chặt chẽ tới Big Data bao gồm điện toán đám mây, IoT,trung tâm dữ liệu và Hadoop.- Điện toán đám mây:Theo IBM thì điện toán đám mây là việc cung cấp tài nguyên máy tính chongười dùng tùy theo mục đích sử dụng thông qua Internet. Nguồn tài nguyên đó có thểlà bất cứ thứ gì liên quan đến điện toán và máy tính, ví dụ như phần mềm, phần cứng,hạ tầng mạng cho tới các máy chủ và mạng lưới máy chủ cỡ lớn.Điện toán đám mây có liên quan chặt chẽ với Big Data. Big Data là đối tượngcủa hoạt động tính toán chuyên sâu và nhấn mạnh khả năng lưu trữ của mỗi hệ thống9đám mây. Mục tiêu chính của hệ thống đám mây là sử dụng tài nguyên tính toán vàlưu trữ rất lớn dưới sự quản lý tập trung để cung cấp cho các ứng dụng Big Data khảnăng tính toán tốt. Sự phát triển của điện toán đám mây cung cấp các giải pháp choviệc lưu trữ và xử lý Big Data. Mặt khác, sự xuất hiện của Big Data cũng làm tăng tốcđộ phát triển của điện toán đám mây. Các công nghệ lưu trữ phân tán dựa trên điệntoán đám mây có thể quản lý Big Data một cách hiểu quả cùng với khả năng tính toánsong song của điện toán đám mây có thể nâng cao hiệu quả của việc thu thập và phântích dữ liệu lớn.Hình 1.3: Kiến trúc của điện toán đám mâyHiện nay, có rất nhiều loại dịch vụ điện toán đám mây nhưng nhìn chung đều cónhững dịch vụ cơ bản sau: Dịch vụ cơ sở hạ tầng (Infrastructure as a Service - IaaS),dịch vụ nền tảng (Platform as a Service - PaaS), dịch vụ phần mềm (Software as aService - SaaS), dịch vụ phần cứng (Hardware as a Service).Mặc dù có nhiều công nghệ trùng lặp giữa điện toán đám mây và Big Data, tuynhiên chúng khác nhau ở hai khía cạnh sau. Đầu tiên, các khái niệm khác nhau ở mộtmức độ nhất định. Điện toán đám mây biến đổi kiến trúc CNTT trong khi Big Dataảnh hưởng đến các quyết định kinh doanh. Tuy vậy, Big Data cũng phải phụ thuộc vàođiện toán đám mây như các cơ sở hạ tầng để hoạt động trơn tru. Thứ hai, Big Data vàđiện toán đám mây có khách hàng mục tiêu khác nhau. Điện toán đám mây là mộtcông nghệ và sản phẩm nhắm đến Chief Information Officers (CIO) như một giải pháp10CNTT tiên tiến. Big Data là một sản phẩm nhắm đến Chief Executive Officers (CEO)người mà chỉ tập trung vào hoạt động kinh doanh. Khi những người ra quyết định cóthể trực tiếp cảm nhận được áp lực cạnh tranh trên thị trường, họ phải đánh bại các đốithủ kinh doanh theo nhiều cách cạnh tranh hơn. Với sự tiến bộ của Big Data và điệntoán đám mây hai công nghệ này đã trở thành tất yếu và ngày càng kết hợp chặt chẽvới nhau. Điện toán đám mây với các chức năng tương tự như của máy tính và hệ điềuhành, cung cấp tài nguyên cấp hệ thống. Dữ liệu lớn hoạt động trong các cấp độ bêntrên được hỗ trợ bởi điện toán đám mây và cung cấp chức năng tương tự như của cơ sởdữ liệu và khả năng xử lý dữ liệu có hiệu quả.Sự phát triển của Big Data được thúc đẩy bởi sự tăng trưởng nhanh chóng củanhu cầu ứng dụng và điện toán đám mây được phát triển từ công nghệ ảo hóa. Đếnmột lúc nào đó, các tiến bộ của điện toán đám mây cũng thúc đẩy sự phát triển của BigData, cả hai sẽ bổ sung cho nhau.- IoT và Big Data:Mô hình IoT sử dụng một số lượng lớn các bộ cảm biến kết nối mạng đượcnhúng vào các thiết bị và các máy móc khác nhau trong thế giới thực. Các cảm biếnnhư vậy được triển khai trong các lĩnh vực khác nhau có thể thu thập các loại dữ liệukhác nhau, chẳng hạn như dữ liệu về môi trường, dữ liệu địa lý, dữ liệu thiên văn vàdữ liệu logistic. Thiết bị di động, phương tiện vận tải, phương tiện công cộng và đồ giadụng tất cả có thể là những thiết bị thu thập dữ liệu trong IoT.Hình 1.4: Bộ cảm biến đo độ ẩm và nhiệt độ DHT22 và chip ESP8266MODBig Data được tạo ra bởi IoT có các đặc trưng khác so với Big Data nói chungdo các loại khác nhau của dữ liệu thu thập được, trong đó các đặc trưng cổ điển nhất11bao gồm sự không đồng nhất, tính đa dạng, tính năng không có cấu trúc, nhiễu và độdư thừa cao. Mặc dù dữ liệu IoT hiện nay không phải là phần thống trị của Big Datanhưng trong tương lai số lượng cảm biến sẽ đạt một nghìn tỷ (ước tính vào năm 2030theo dự báo của HP) số lượng cảm biến sẽ đạt một nghìn tỷ và khi đó dữ liệu IoT sẽ làphần quan trọng nhất của dữ liệu lớn. Tập đoàn Intel đã đưa ra một báo cáo trong đóchỉ ra rằng dữ liệu lớn trong IoT có ba tính năng phù hợp với các mô hình dữ liệu lớn:(i) thiết bị đầu cuối phong phú tạo ra khối lượng dữ liệu lớn, (ii) các dữ liệu được tạora bởi IoT thường là bán cấu trúc hoặc không có cấu trúc; (iii) dữ liệu của IoT chỉ cóích khi nó được phân tích.Có một nhu cầu bắt buộc áp dụng Big Data cho các ứng dụng IoT, trong khi sựphát triển của dữ liệu lớn đã sẵn sàng hỗ trợ. Việc này đã được công nhận rộng rãi khihai công nghệ này đều phụ thuộc lẫn nhau và cần được phối hợp để phát triển. Việctriển khai rộng rãi IoT đẩy sự tăng trưởng cao của dữ liệu về cả số lượng và chủng loạitừ đó cung cấp cơ hội cho các ứng dụng và phát triển của Big Data. Mặt khác, áp dụngcông nghệ dữ liệu lớn vào IoT cũng làm tăng tốc độ tiến bộ nghiên cứu và mô hìnhkinh doanh của IoT.- Trung tâm dữ liệu:Trong mô hình dữ liệu lớn, các trung tâm dữ liệu không chỉ là một nền tảng lưutrữ tập trung dữ liệu, mà còn đảm nhận nhiều trách nhiệm chẳng hạn như thu thập dữliệu, quản lý dữ liệu, tổ chức dữ liệu và tận dụng các giá trị dữ liệu cùng các chứcnăng.Hình 1.5 Hệ thống trung tâm dữ liệu12Các trung tâm dữ liệu chủ yếu tập trung vào dữ liệu. Dữ liệu được tổ chức, quảnlý theo mục tiêu và phát triển con đường cốt lõi của trung tâm dữ liệu. Sự xuất hiệncủa Big Data mang lại những cơ hội phát triển và thách thức lớn cho các trung tâm dữliệu. Big Data sẽ thúc đẩy sự tăng trưởng bùng nổ của các cơ sở hạ tầng và các phầnmềm liên quan của trung tâm dữ liệu. Mạng lưới trung tâm dữ liệu vật lý là nòng cốthỗ trợ Big Data nhưng hiện nay cơ sở hạ tầng chính mới là điều cần gấp nhất.Big Data đòi hỏi trung tâm dữ liệu cung cấp nền tảng hỗ trợ mạnh mẽ. Các môhình Big Data yêu cầu nghiêm ngặt hơn về khả năng lưu trữ và khả năng xử lý, cũngnhư khả năng truyền tải mạng.Big Data tạo ra cho các trung tâm dữ liệu nhiều chức năng hơn. Trong các môhình Big Data, trung tâm dữ liệu có trách nhiệm không chỉ tập trung vào các thiết bịphần cứng mà còn tăng cường năng lực mềm như khả năng thu hồi, xử lý, tổ chức,phân tích và ứng dụng của Big Data. Các trung tâm dữ liệu có thể giúp nhân viên kinhdoanh phân tích các dữ liệu hiện có, phát hiện ra các vấn đề trong hoạt động kinhdoanh và phát triển các giải pháp từ Big Data.- Hadoop và Big Data:Hadoop là một Apache framework mã nguồn mở được viết bằng Java, cho phépxử lý phân tán (distributed processing) các tập dữ liệu lớn trên các cụm máy tính(clusters of computers) thông qua mô hình lập trình đơn giản. Hadoop được thiết kế đểmở rộng quy mô từ một máy chủ đơn giản sang hàng ngàn máy tính khác có tính toánvà lưu trữ cục bộ (local computation and storage).Hadoop được sử dụng rộng rãi trong các ứng dụng Big Data trong công nghiệp,ví dụ như lọc thư rác, tìm kiếm mạng, phân tích luồng clicks hay khuyến cáo xãhội,…Ngoài ra, các nghiên cứu học thuật đáng kể hiện nay dựa trên Hadoop.Tháng 6 năm 2012, Yahoo chạy Hadoop trên 42,000 máy chủ tại bốn trung tâmdữ liệu để hỗ trợ các sản phẩm và dịch vụ của mình. Cũng trong thời gian đó,Facebook thống báo rằng cụm Hadoop của họ có thể xử lý 100PB dữ liệu mà dữ liệunày có thể tăng 0,5 PB mỗi ngày như trong tháng 11 năm 2012. Ngoài ra, nhiều côngty cung cấp Hadoop thương mại bao gồm Cloudera, IBM, MapR,…Về kiến trúc, Hadoop gồm 4 module:13+ Hadoop Common: Đây là các thư viện và tiện ích cần thiết của Java để cácmodule khác sử dụng. Những thư viện này cung cấp hệ thống file và lớp OS trừutượng, đồng thời chứa các mã lệnh Java để khởi động Hadoop.+ Hadoop YARN: Đây là framework để quản lý tiến trình và tài nguyên của cáccluster.+ Hadoop Distributed File System (DHFS): Đây là hệ thống file phân tán cungcấp truy cập thông lượng cao cho ứng dụng khai thác dữ liệu.+ Hadoop MapReduce: Đây là hệ thống dựa trên YARN dùng để xử lý songsong các tập dữ liệu lớn.Hình 1.6 Kiến trúc hệ thống HadoopTrong số các máy móc và hệ thống công nghiệp hiện đại, các cảm biến đượctriển khai rộng rãi để thu thập thông tin cho việc theo dõi môi trường và dự báo sự cố.Bahga và những cộng sự của mình đã đề xuất một framework cho việc tổ chức dữ liệuvà cơ sở hạ tầng điện toán đám mây gọi là CloudView [17]. CloudView sử dụng kiếntrúc hỗn hợp, các node địa phương và các cụm dữ điều khiển từ xa dựa trên Hadoop đểphân tích dữ liệu máy tính tạo ra. Các node địa phương được sử dụng cho các dự báothời gian thực các sự cố, các cụm dựa trên Hadoop được dùng để phân tích offline.1.2 Quy trình phân tích dữ liệu lớnNội dung phần này sẽ trình bày theo các giai đoạn trong luồng dữ liệu của BigData. Luồng dữ liệu trong Big Data được chia thành bốn giai đoạn: Tạo ra dữ liệu, thuthập dữ liệu, lưu trữ dữ liệu và phân tích dữ liệu. Nếu coi rằng dữ liệu như là mộtnguyên liệu thô, sự tạo ra và thu thập dữ liệu là một quá trình khai phá, lưu trữ dữ liệu14là một quá trình lưu trữ và phân tích dữ liệu là một quá trình sản xuất mà sử dụng cácnguyên liệu để tạo ra giá trị mới.1.2.1 Tạo ra dữ liệuTạo ra dữ liệu là bước đầu tiên của Big Data. Hiện nay, nguồn tạo ra dữ liệu chủyếu của Big Data là những thông tin hoạt động và buôn bán trong các doanh nghiệp,các thông tin Logistic và cảm biến trong IoT, thông tin tương tác giữa người vớingười, thông tin về vị trí trong Internet, dữ liệu y sinh và dữ liệu được tạo ra trongnghiên cứu khoa học,...Các thông tin vượt xa các năng lực của các kiến trúc và cơ sởhạ tầng CNTT của các doanh nghiệp hiện có, trong khi yêu cầu về thời gian thực cũnggây áp lực rất lớn cho năng lực tính toán hiện có.1.2.2 Thu thập dữ liệuThu thập dữ liệu là giai đoạn thứ hai của hệ thống Big Data, thu thập dữ liệu lớnbao gồm thu nhận dữ liệu, truyền tải dữ liệu và tiền xử lý dữ liệu. Trong thời gian thuthập dữ liệu lớn, một khi các dữ liệu thô được thu thập thì cơ chế truyền dẫn hiệu quảsẻ gửi nó cho một hệ thống quản lý lưu trữ thích hợp để hỗ trợ các ứng dụng phân tíchkhác nhau. Các tập hợp dữ liệu được thu thập có thể bao gồm nhiều dữ liệu dư thừahoặc vô dụng, chính điều này sẽ làm tăng không gian lưu trữ một cách không cần thiếtvà ảnh hưởng đến việc phân tích dữ liệu tiếp theo. Ví dụ, sự dư thừa các dữ liệu là rấtphổ biến trong các tập hợp dữ liệu được thu thập bởi các cảm biến để theo dõi môitrường. Công nghệ nén dữ liệu có thể được áp dụng để giảm bớt sự dư thừa. Do đó,hoạt động tiền xử lý dữ liệu là không thể thiếu để đảm bảo lưu trữ và khai thác dữ liệuhiệu quả.Những thành phần của thu thập dữ liệu được trình bày trong bảng 1.1ThànhĐịnh nghĩaPhương pháp / Kỹ thuậtphầnThu nhậnThu nhận dữ liệu là - Log file: Là một trong những phương phápdữ liệusử dụng kỹ thuật lấy thu nhận dữ liệu được sử dụng rộng rãi, logdữ liệu đặc biệt để có file là file bản ghi được tạo ra tự động bởi hệđược dữ liệu thô từ thống nguồn dữ liệu, do đó ghi lại các hoạtmôi trường sinh dữ động trong các định dạng tập tin được chỉ địnhliệu cụ thể.cho phân tích tiếp theo.- Cảm biến: Cảm biến trở nên phổ biến trong15cuộc sống hàng ngày để đo đại lượng vật lý vàbiến đổi đại lượng vật lý thành tín hiệu số cóthể đọc được cho xử lý bước tiếp theo. Dữ liệucảm biến có thể được phân loại như sóng âmthanh, giọng nói, rung động, điện thoại diđộng, hóa chất, dòng chảy, thời tiết, áp suất,nhiệt độ, vv. Thông tin cảm biến được chuyểnđến cho một điểm thu thập dữ liệu thông quamạng có dây hoặc không dây.- Thu thập dữ liệu mạng: Thu thập dữ liệumạng được thực hiện bằng cách sử dụng mộtsự kết hợp của web crawler, hệ thống phânđoạn các từ, hệ thống nhiệm vụ, hệ thống chỉsố,…Web crawler là một chương trình đượcsử dụng bởi máy tìm kiếm (search engines) đểtải về và lưu trữ dưới dạng web [18].- Ngoài ba phương pháp thu nhận dữ liệu nóitrên của các nguồn dữ liệu chính còn có rấtnhiều dữ liệu được thu thập bằng các phươngpháp hệ thống khác.Truyền dữSau khi hoàn thành - Truyền tải dữ liệu bao gồm hai phương phápliệuviệc thu thập dữ liệu tương ứng với hai giai đoạn trong quá trìnhthô, dữ liệu sẽ được truyền dữ liệu: Truyền tải Inter-DCN và Intratruyền tải đến một cơ DCN.sở hạ tầng lưu trữ dữ - Truyền tải DCN: Là truyền tải từ nguồn dữliệu để xử lý và phân liệu đến trung tâm dữ liệu. Do sự phát triểntích. Như đã nêu ở nhanh chóng của nhu cầu truyền tải, cơ sở hạphần trước, Big Data tầng mạng vật lý ở hầu hết các khu vực trênchủ yếu được lưu trữ thế giới được cấu thành bởi các hệ thốngtrong một trung tâm truyền dẫn cáp quang dung lượng lớn, tốc độdữ liệu. Sự sắp xếp dữ cao và chi phí thấp.liệu cần được điều - Truyền tải Intra-DCN: Là các luồng truyền16chỉnh để nâng cao thông dữ liệu xảy ra trong các trung tâm dữhiệu suất tính toán liệu. Truyền tải Intra-DCN phụ thuộc vào cơhoặc tạo điều kiện chế truyền tin bên trong trung tâm dữ liệu (víbảo trì phần cứng. dụ trên các mối kết nối vật lý, chips, bộ nhớNói cách khác, truyền trong của máy chủ dữ liệu, kiến trúc mạng củatải dữ liệu nội bộ có các trung tâm dữ liệu và các giao thức trao đổithể xảy ra trong trung thông tin). Một trung tâm dữ liệu bao gồmtâm dữ liệu.nhiều rack được tích hợp máy chủ kết nối vớicác mạng nội bộ của nó. Ngày nay, các mạngkết nối nội bộ của hầu hết các trung tâm dữliệu là cấu trúc fat-tree, hai lớp hoặc ba lớpdựa trên các luồng mạng hàng hóa [19][20].Tiền xử lý- Do sự đa dạng của - Tích hợp: Tích hợp dư liệu là nền tảng củadữ liệucác nguồn dữ liệu, các thông tin thương mại hiện đại, trong đó baotập hợp dữ liệu thu gồm sự kết hợp dữ liệu từ các nguồn khácthập được thay đổi do nhau và cung cấp cho người dùng với mộtnhiễu, sự dư thừa và cách nhìn thống nhất về dữ liệu [21]. Cáctính đồng nhất chắc phương pháp tích hợp dữ liệu thường đi cùngchắn sẽ là một sự lãng với các công cụ xử lý luồng và công cụ tìmphí khi lưu trữ dữ liệu kiếm [22][23].vô nghĩa. Ngoài ra, - Dọn dẹp: Là một quá trình để xác định dữmột số phương pháp liệu không chính xác, không đầy đủ hoặcphân tích có những không hợp lý và sau đó sửa đổi hoặc xóa dữyêu cầu nghiêm ngặt liệu đó để cải thiện chất lượng dữ liệu. Dọnvề chất lượng dữ liệu. dẹp dữ liệu gồm năm thủ tục bổ sung [24]:Vì vậy, để có thể Định nghĩa và xác định các loại lỗi, tìm kiếmphân tích dữ liệu hiệu và xác định lỗi, sửa lỗi, tài liệu các mẫu lỗi vàquả cần phải tiền xử các loại lỗi, sửa đổi các thủ tục nhập dữ liệulý dữ liệu dưới nhiều để giảm thiểu sai xót trong tương lai.trường hợp để tích - Loại bỏ dư thừa: Thừa dữ liệu là sự lặp lạihợp dữ liệu từ các dữ liệu hoặc các phần dư mà thường xảy ranguồnkhácnhau, trong nhiều tập dữ liệu. Dữ liệu dư thừa có thể17trong đó có thể không làm tăng chi phí truyền tải dữ liệu không cầnchỉ làm giảm chi phí thiết và gây ra các khuyết tật trên hệ thống lưulưu trữ mà còn cải trữ, ví dụ như sự lãng phí không gian lưu trữ,thiện độ chính xác sự không nhất quán dữ liệu, giảm khả năngcủa phân tích.định danh dữ liệu, thiệt hại dữ liệu. Vì vậy,- Có nhiều phương các phương pháp giảm dư thừa khác nhau đãpháp tiền xử lý dữ được đề xuất, chẳng hạn như phát hiện dưliệu đối với các bộ dữ thừa, lọc dữ liệu và nén dữ liệu. Nhữngliệu khác nhau. Tuy phương pháp này có thể áp dụng đối với cácnhiên, rất khó khăn tập dữ liệu khác nhau hoặc các môi trườnghay thậm chí là không ứng dụng. Tuy nhiên, giảm dư thừa cũng cóthể xây dựng một thủ thể mạng lại một số tác động tiêu cực như dữtục và công nghệ tiền liệu nén và giải nén gây thêm gánh nặng vềxử lý dữ liệu tổng tính toán. Dữ liệu dư thừa được biết đến nhiềuquát mà áp dụng cho khi hình ảnh và video có chứa các dư thừatất cả các loại dữ liệu.đáng kể, bao gồm cả dư thừa thời gian, khônggian, dư thừa thống kê, dư thừa về cảm biến.Bảng 1.1 Bảng mô tả thành phần trong thu nhận dữ liệu1.2.3 Lưu trữ dữ liệuCác nghiên cứu đáng kể về Big Data thúc đẩy sự phát triển của các cơ chế lưutrữ Big Data. Các cơ chế lưu trữ dữ liệu lớn hiện nay có thể được phân thành ba cấp độtừ thấp đến cao: Hệ thống tập tin, cơ sở dữ liệu và các mô hình lập trình.- Hệ thống tập tin:Hệ thống tập tin là nền tảng cho các ứng dụng cấp cao hơn. GFS của Google làmột hệ thống tập tin phân tán có khả năng mở rộng để hỗ trợ các ứng dụng quy môlớn, phân tán các ứng dụng chuyên sâu [25]. GFS sử dụng các máy chủ hàng hóa giá rẻđể thu được sai sót và cung cấp cho khách hàng các dịch vụ hiệu suất cao. GFS hỗ trợcác ứng dụng tập tin quy mô lớn với việc đọc nhiều hơn là viết. Tuy nhiên, GFS cũngcó một số hạn chế, chẳng hạn như có điểm riêng lẻ bị hỏng và hiệu suất kém cho cáctập tin nhỏ.18Hình 1.7 Kiến trúc hệ thống GFS- Cơ sở dữ liệu:Các hệ thống cơ sở dữ liệu khác nhau được phát triển để xử lý các tập dữ liệu ởquy mô khác nhau và hỗ trợ các ứng dụng khác nhau. Cơ sở dữ liệu quan hệ truyềnthống không thể đáp ứng được những thách thức về các loại quy mô được mang tớibởi Big Data. Cơ sở dữ liệu NoSQL (cơ sở dữ liệu quan hệ không truyền thống) đangtrở nên phổ biến hơn cho việc lưu trữ Big Data. Cơ sở dữ liệu NoSQL có các chế độlinh hoạt, dễ dàng sao chép, API đơn giản, thống nhất cuối cùng và hỗ trợ cho khốilượng dữ liệu lớn. Cơ sở dữ liệu NoSQL được trở thành công nghệ cốt lõi cho BigData.Trong bảng 1.2 sẽ trình bày ba cơ sở dữ liệu NoSQL hay sử dụng đó là cơ sở dữliệu key-value, cơ sở dữ liệu column-oriented và cơ sở dữ liệu document-oriented, mỗicơ sở dữ liệu đều dựa trên mô hình dữ liệu nhất định.Cơ sở dữ liệuCSDL key-valueMô tảVí dụCSDL key-value được thành Hệ thống lưu trữ key-value baolập bởi một mô hình dữ liệu gồm Redis, Tokyo Canbinet,đơn giản là dữ liệu được lưu trữ Tokyo Tyrant, Riak và Scalaristương ứng với key-value. Mỗi đều cung cấp khả năng mởkey-value là duy nhất và khách rộng bằng cách phân phối cáchàng có thể nhập các giá trị từ khóa vào các node.truy vấn theo các key. CSDLnhư vậy có một cấu trúc đơngiản và CSDL key-value hiệnđại được đặc trưng với khả19năng mở rộng cao và thời gianđáp ứng truy vấn ngắn hơn sovới các cơ sở dữ liệu quan hệ.CSDL column-Các CSDL column-oriented lưu Cassandra là một hệ thống lưuorientedtrữ và xử lý dữ liệu theo các cột trữ phân tán để quản lý sốhơn là các hàng. Cả cột và hàng lượng lớn các dữ liệu có cấuđược phân đoạn theo nhiều trúc được phân bố trong nhiềunode để có khả năng mở rộng.máy chủ thương mại. Ngoài racòn có một số công cụ dẫn xuấtcủa BigTable như HBase hayHypertable.CSDL document- Lưu trữ tài liệu có thể hỗ trợ - MongoDB: Là mã nguồn mởorientedcác dạng dữ liệu phức tạp hơn. và cơ sở dữ liệu documentKhi các văn bản không tuân oriented. MongoDB lưu trữ cáctheo các kiểu nghiêm ngặt, tài liệu như các đối tượngkhông cần thiết phải tiến hành Binary JSON.di chuyển các kiểu đó. Bên - Simple DB: Là một CSDLcạnh đó các cặp key-value vẫn phân tán và là một dịch vụ webcó thể được lưu giữ.của Amazon.Bảng 1.2 Giới thiệu một số CSDL NoSQL- Các mô hình lập trình:Big Data thường được lưu trữ trong hàng trăm và thậm chí hàng ngàn máy chủthương mại. Do đó, các mô hình song song truyền thống chẳng hạn như MessagePassing Interface (MPI) và Open Multi-Processing (OpenMP) có thể không đủ để hỗtrợ các chương trình song song quy mô lớn như vậy. Một số mô hình lập trình songsong được để xuất đã cải thiện một cách hiệu quả hiệu suất của NoSQL và giảmkhoảng cách hiệu suất với CSDL quan hệ. Do đó, các mô hình này đã trở thành nềntảng cho việc phân tích dữ liệu lớn.Mapreduce là mô hình lập trình đơn giản nhưng mạnh mẽ cho tính toán quy môlớn bằng cách sử dụng một số lượng lớn các cụm máy tính thương mại để đạt được sựphân tán và xử lý song song tự động. Trong Mapreduce, mô hình tính toán chỉ có haihàm là hàm Map và hàm Reduce, cả hai đều được lập trình bởi người sử dụng. Hàm20Map xử lý các cặp key-value đầu vào và tạo ra các cặp key-value trung gian. Sau đó.Mapreduce sẽ kết hợp tất cả các giá trị trung gian liên quan tới cùng key và truyềnchúng tới hàm Reduce mà trong đó tiếp tục nén các tập giá trị thành một tập nhỏ hơn.Hình 1.8 Mô hình lập trình Map-ReduceNgoài Map-Reduce, Dryad là một engine thực thi phân tán theo mục đích chungđể xử lý các ứng dụng song song có các dữ liệu hạt thô. Cấu trúc hoạt động của Dryadlà một đồ thị chu trình có hướng, trong đó các đỉnh đại diện cho các trương trình vàcác cạnh đại diện cho các kênh dữ liệu. Dryad thực hiện các thao tác trên các đỉnhtrong cụm và truyền dữ liệu thông qua các kênh dữ liệu bao gồm các tài liệu, các kếtnối TCP và bộ nhớ chia sẻ FIFO.Một mô hình lập trình đồ thị khác tập trung vào các thuật toán máy học songsong là GraphLab. GraphLab bao gồm ba thành phần: Đồ thị dữ liệu, hàm cập nhật vàthao tác đồng bộ. Đồ thị dữ liệu là một container điều khiển dữ liệu được người dùngđịnh nghĩa bao gồm các tham số mô hình, trạng thái thuật toán và thậm chí cả dữ liệuthống kê. Hàm cập nhật là một thủ tục không trạng thái, thủ tục này thay đổi dữ liệubên trong phạm vi của một đỉnh và hoạch định việc thực thi tiếp theo của các hàm cậpnhật trên các đỉnh khác. Cuối cùng, thao tác đồng bộ duy trì đồng thời các tổ hợp toàncục.Việc phân tích Big Data liên quan đến các phương pháp phân tích chủ yếu chodữ liệu truyền thống và Big Data, kiến trúc phân tích cho Big Data và phần mềm đượcsử dụng để khai thác và phân tích Big Data. Phân tích dữ liệu là giai đoạn cuối cùng và21quan trọng nhất trong chuỗi giá trị của Big Data với mục đích rút ra những giá trị hữuích, cung cấp các đề xuất hoặc quyết định. Các mức độ khác nhau của các giá trị tiềmnăng có thể được tạo ra thông qua việc phân tích các dữ liệu trong các lĩnh vực khácnhau [10]. Tuy nhiên, phân tích dữ liệu là một lĩnh vực rộng lớn, nơi thường xuyênthay đổi và vô cùng phức tạp.1.2.4 Phân tích dữ liệuCó hai phương pháp phân tích dữ liệu được sử dụng đó là phương pháp phântích dữ liệu truyền thống và phương pháp phân tích Big Data.- Phân tích dữ liệu truyền thống:Phân tích dữ liệu truyền thống có nghĩa là sử dụng phương pháp thống kê thíchhợp để phân tích dữ liệu lớn, tập trung, trích xuất và tinh chỉnh dữ liệu hữu ích ẩn chứatrong hàng loạt các tập dữ liệu hỗn độn và để xác định các luật vốn có của đối tượng,từ đó tối đa hóa giá trị của dữ liệu. Phân tích dữ liệu đóng một vai trò hướng dẫn rấtlớn trong việc xây dựng kế hoạch phát triển cho một quốc gia, sự hiểu biết về nhu cầukhách hàng trong thương mại và dự đoán xu hướng thị trường cho các doanh nghiệp.Phân tích dữ liệu lớn có thể được coi như các kỹ thuật phân tích cho một dạng đặc biệtcủa dữ liệu. Do đó, nhiều phương pháp phân tích dữ liệu truyền thống vẫn có thể đượcsử dụng để phân tích dữ liệu lớn, những phương pháp đó bắt nguồn từ thống kê vàkhoa học máy tính.Bảng 1.3 sẽ trình bày một số phương pháp phân tích dữ liệu truyền thốngthường được sử dụng.Phương phápMô tảSử dụngPhân tích cụmLà một phương pháp thống Phân tích cụm được sử dụng để phân(Clusterkê cho việc nhóm các đối biệt các đối tượng với các tính nănganalys)tượng và đặc biệt phân loại riêng biệt và chia chúng thành mộtđối tượng theo một số tính số loại (cụm) theo các tính năng này,năngcác đối tượng như vậy trong cùngmột thể loại sẽ có độ đồng nhất cao.Phân tích nhânPhân tích nhân tố về cơ bản Những nhân tố được nhóm từ cáctốlà nhắm vào việc mô tả mối biến số được sử dụng để biểu lộ hầu(Factor analys)quan hệ giữa nhiều phần tử hết thông tin của các dữ liệu ban đầu.với chỉ một vài nhân tố, ví22dụ, nhóm các biến số liênquan chặt chẽ thành mộtnhân tố.Phân tíchLà một phương pháp phân Các quan hệ được phân loại thành:tương quantích để xác định luật các (i) hàm (function), phản ánh mối(Correlationquan hệ, chẳng hạn như sự quan hệ phụ thuộc chặt chẽ giữa cácAnalysis)tương quan, sự phụ thuộc hiện tượng mà cũng được gọi là mộttương ứng và hạn chế lẫn mối quan hệ phụ thuộc chính thức,nhau trong các hiện tượng (ii) sự tương quan, một số quan hệquan sát được và phù hợp phụ thuộc chưa xác định hoặc khôngvới việc tiến hành dự báo chính xác và các giá trị số như vậyvà kiểm soát.biểu diễn một sự nhiễu loạn thườngxuyên xung quanh giá trị trung bìnhcủa chúng.Phân tích hồiLà một công cụ toán học để Dựa trên một nhóm các thí nghiệmquybiểu diễn mối tương quan hoặc các dữ liệu đã được quan sát,(Regressiongiữa một biến số và nhiều phân tích hồi quy xác định các mốiAnalysis)biến số khác.quan hệ phụ thuộc giữa các biến sốẩn do sự ngẫu nhiên. Phân tích hồiquy có thể làm cho mối tương quanphức tạp và không xác định đượcgiữa những biến số để đơn giản vàchính qui.Thử nghiệmPhương pháp này còn có Đối với tập dữ liệu lớn sẽ đòi hỏiA/Btên gọi là là gàu múc nước. một số lượng lớn các thử nghiệm sẽ(A/B Testing)Đó là một công nghệ để được tiến hành và phân tích.xác định làm thế nào để cảithiện các biến mục tiêubằng cách so sánh cácnhóm được thử nghiệm.Phân tíchPhân tích thống kê là một Phân tích thống kê miêu tả có thểthống kêphương pháp được dựa trên tóm tắt và mô tả các tập dữ liệu,23(Statisticallý thuyết thống kê, một trong khi phân tích thống kê suy luậnAnalysis)nhánh của toán học ứng có thể rút ra kết luận từ chủ đề dữdụng.Tronglýthuyết liệu đến các biến ngẫu nhiên. Phânthống kê, tính ngẫu nhiên tích thống kê được áp dụng rộng dãivà sự không chắc chắn trong các lĩnh vực kinh tế và chămđược mô hình hóa với lý sóc ý tế.thuyết xác suất.Các thuật toánKhai phá dữ liệu là một quá Trong năm 2006, Hội nghị quốc tếkhai phá dữtrình để trích xuất thông tin IEEE về khai phá dữ liệu (ICDM) đãliệuẩn, không rõ, nhưng có khả xác định mười thuật toán khai thác(Data Miningnăng hữu ích và thu được dữ liệu có ảnh hưởng nhất thông quaAlgorithms)kiến thức từ khối lượng, một số thủ tục lựa chọn nghiêm ngặttính không đầy đủ, nhiễu, bao gồm C4.5, k-means, SCM,mờ và ngẫu nhiên.Apriori, EM, PageRank, AdaBoost,kNN, Naive Bayes và Cart. Mườithuật toán này đều được sử dụngtrong những vấn đề quan trọng nhấttrong nghiên cứu về phai khá dữ liệu.Bảng 1.3 Những phương pháp phân tích dữ liệu truyền thống- Các phương pháp phân tích Big Data:Các phương pháp xử lý chính của dữ liệu lớn được trình bày trong bảng 1.4 sauđây:Phương phápBloom FilterMô tảSử dụngBloom Filter bao gồm một loạt Bloom Filter có hiệu quảcác hàm băm. Nguyên tắc của không gian cao và tốc độ truyBloom Filter là để lưu trữ các giá vấn cao.trị băm của dữ liệu khác với dữliệu chính nó bằng cách sử dụngmột mảng bit, mà bản chất là mộtchỉ số bitmap sử dụng hàm đểtiến hành lưu trữ và nén dữ liệu.BămLà một phương pháp mà chủ yếu Băm có những lợi thế như

Tài liệu liên quan

  • nghiên cứu tính chất của các chất lỏng ion và ứng dụng trong phân tích điện hóa nghiên cứu tính chất của các chất lỏng ion và ứng dụng trong phân tích điện hóa
    • 65
    • 1
    • 2
  • Nghiên cứu một số phương pháp nhận dạng đối tượng ứng dụng trong hệ thống camera quan sát bảo vệ mục tiêu Nghiên cứu một số phương pháp nhận dạng đối tượng ứng dụng trong hệ thống camera quan sát bảo vệ mục tiêu
    • 88
    • 1
    • 2
  • Nghiên cứu đặc tính điện hóa của atorvastatin, fenofibrate và ứng dụng trong phân tích bằng phương pháp von ampe (Tóm tắt  trích đoạn) Nghiên cứu đặc tính điện hóa của atorvastatin, fenofibrate và ứng dụng trong phân tích bằng phương pháp von ampe (Tóm tắt trích đoạn)
    • 30
    • 822
    • 0
  • Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ của viễn thông tỉnh bắc kạn Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ của viễn thông tỉnh bắc kạn
    • 66
    • 383
    • 0
  • Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ của viễn thông bắc kạn tt Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ của viễn thông bắc kạn tt
    • 10
    • 306
    • 0
  • Nghiên cứu một số vân đề về BIG data và ứng dụng trong phân tích kinh doanh (Luận văn thạc sĩ) Nghiên cứu một số vân đề về BIG data và ứng dụng trong phân tích kinh doanh (Luận văn thạc sĩ)
    • 64
    • 1
    • 27
  • Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ
    • 58
    • 73
    • 0
  • Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ (Luận văn thạc sĩ) Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ (Luận văn thạc sĩ)
    • 58
    • 198
    • 0
  • Nghiên Cứu Một Số Thuật Toán Lọc Thư Rác Và Ứng Dụng Trong Lọc Email Nội Bộ Của Viễn Thông Nghiên Cứu Một Số Thuật Toán Lọc Thư Rác Và Ứng Dụng Trong Lọc Email Nội Bộ Của Viễn Thông
    • 66
    • 35
    • 0
  • Một số phương pháp hậu kiểm VaR và ứng dụng trong phân tích rủi ro danh mục đầu tư ngoại tệ Một số phương pháp hậu kiểm VaR và ứng dụng trong phân tích rủi ro danh mục đầu tư ngoại tệ
    • 9
    • 37
    • 0

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

(3.53 MB - 64 trang) - Nghiên cứu một số vân đề về BIG data và ứng dụng trong phân tích kinh doanh (Luận văn thạc sĩ) Tải bản đầy đủ ngay ×

Từ khóa » Tiêu Luận Về Big Data Trong Ngân Hàng