Nghiên Cứu Hệ Thống Khuyến Nghị Người Dùng Dựa Vào Lọc Cộng Tác
Có thể bạn quan tâm
- Trang chủ >>
- Công nghệ thông tin >>
- Hệ thống thông tin
Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.11 MB, 57 trang )
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ MY NGHIÊN CỨU HỆ THỐNG KHUYẾN NGHỊ NGƯỜI DÙNG DỰA VÀO LỌC CỘNG TÁC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ MY NGHIÊN CỨU HỆ THỐNG KHUYẾN NGHỊ NGƯỜI DÙNG DỰA VÀO LỌC CỘNG TÁC Ngành: CôngnghệthôngtinChuyênngành:KỹthuậtphầnmềmMãsố: 60480103LUẬNVĂNTHẠCSĨCÔNGNGHỆTHÔNGTINNGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN VĂN VINHHÀ NỘI – 2014 1Lời cam đoan Tôixincamđoanluậnvănnàylàcôngtrìnhnghiêncứuhoàntoàncủabảnthân.Trongtoànbộnộidungcủaluậnvăn,nhữngđiềuđượctrìnhbàyhoặclàcủacánhântôihoặclàđượctổnghợptừnhiềunguồntàiliệu.Tấtcảcáctàiliệuthamkhảođềucóxuấtxứrõràngvàđượctríchdẫnhợppháp.Tôixinchịuhoàntoàntráchnhiệmvàchịumọihìnhthứckỷluậttheoquyđịnhcholờicamđoancủamình.NamĐịnh,ngày28tháng09năm2014NgườicamđoanPhạm Thị My 2Lời cảm ơn Đầutiên,tôixinchânthànhcảmơnthầygiáoNguyễnVănVinhlàcánbộhướngdẫnkhoahọc,thầyđãtậntìnhgiúpđỡvàhướngdẫntôivềcảchuyênmôn,nghiêncứuvàđịnhhướngpháttriểntrongsuốtquátrìnhlàmluậnvăn. ĐểhoànthànhluậnvăntốtnghiệplàcảmộtquátrìnhđầykhókhănvàthửtháchtronghọctậpvànghiêncứutạitrườngĐạihọcCôngNghệ.Vàđểcóđượcnhữngthànhquảnhưngàyhômnay,ngoàinhữngnỗlựccủabảnthân,khôngthểkhôngnhắctớilàsựđộngviên,giúpđỡcủacácThầy,Côgiáo,bạnbè,đồngnghiệpvàngườithântronggiađình. TôicũngxingửilờicámơntớicácThầy,CôgiáocủaKhoaCôngNghệThôngTin,vìđãtậntìnhgiảngdạynhữngkiếnthứcbổích,hiệnđạivềlĩnhvựcKỹthuậtphầnmềmtôihọctậpvàtạomọiđiềukiệnchotôihọctậpnghiêncứuvàhoànthànhluậnvănnày. Vớigiađình,tôixinbàytỏlòngbiếtơnsâusắcvìgiađìnhđãluônởbênvàủnghộtôitrênconđườnghọctậpvànghiêncứu. Cuốicùng,tôicũngxingửilờicàmơnđếnđồngnghiệpvàbạnbètôilànhữngngườiđãđộngviên,tạomọiđiềukiệnchotôilaođộngvàhọctậptrongsuốtthờigianqua.NamĐịnh,ngày28tháng09năm2014Học viên Phạm Thị My 3Bảng các ký hiệu và chữ viết tắt STT Ký hiệu Diễn giải Tiếng Việt 1 U User Ngườidùng2 I Item Sảnphẩm3 R Rating Đánhgiá4 IR InformationRetrieval Thuthậpthôngtin5 IF InformationFiltering Lọcthôngtin6 RS RecommenderSystems Hệthốngkhuyếnnghị7 CF CollaborativeFiltering Lọccộngtác8 KNN K-nearestneighbor K-hàngxómgầnnhất9 RMSE RootMeanSquareError Hàmsaisốbìnhphươngtrungbình10 MAE Meanabsoluteerror Saisốtuyệtđốitrungbình11 MF MatrixFactorization Matrậnthừasố12 GD Gradientdescent Giảmđộlệch13 SGD Stochasticgradientdescent Giảmđộlệchngẫunhiên 4Danh mục bảng và biểu đồ Bảng2.1:Vídụ1vềngườidùngđánhgiásảnphẩm 17Bảng2.2:Vídụ2vềngườidùngđánhgiásảnphẩm 20Bảng2.3:Vídụ3vềngườidùngđánhgiásảnphẩm 23Bảng2.4:Matrậnđánhgiádàyđặc 32Bảng2.5:Matrậnđánhgiáthưathớt 32Bảng2.6:SosánhgiữaGDvàSGD 43Bảng3.1:ĐịnhdạngcácbộdữliệuhuấnluyệnvàkiểmtracủaMovielens 48Bảng3.2:GiátrịRMSEvàRMSEtbthựcnghiệmtrêntậpdữliệuMovielens 50 Danh mục hình ảnh Hình1.1:Môhìnhhệthốnglọcthôngtin 9Hình1.2:Mộtvídụvềmôhìnhkhuyếnnghịsảnphẩm 10Hình1.3:Môhìnhkỹthuậtlọcdựatheonộidung 12Hình2.1:MôhìnhđồthịtínhkhoảngcáchManhattan 18Hình2.2:MôhìnhđồthịtínhkhoảngcáchEuclidean 19Hình2.3:MôhìnhđồthịtínhhệsốtươngquanPearson 22Hình2.4:MôhìnhđồthịtínhhệsốtươngtựCosine 24Hình2.5:Phươngpháptiếpcậnvùnglâncận 30Hình2.6:Địnhhướngngườidùngđốivớiphimảnh 31Hình2.7:Phươngphápmatrậnthừasố 35Hình2.8:MôhìnhphươngphápGradientdescent 36Hình2.9:ĐồthịbiểuthịthuậttoánSGDthửnghiệmtrêntậpdữliệucủaNetflix 42 5MỤC LỤC Lời cam đoan 1Lời cảm ơn 2Bảng các ký hiệu và chữ viết tắt 3Danh mục bảng và biểu đồ 4Danh mục hình ảnh 4Mở đầu 7CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀHỆ THỐNG KHUYẾN NGHỊ 91.1. Khái niệm chung: 91.1.1. Lọc thông tin (Information Filtering _IF) 91.1.2. Hệ thống khuyến nghị (Recommender System) 101.1.3. Giới thiệu bài toán về hệ thống khuyến nghị: 111.2. Các kỹ thuật lọc cho hệ thống khuyến nghị [4] 111.2.1. Kỹ thuật lọc dựa theo nội dung: 121.2.2. Kỹ thuật lọc cộng tác (Collaborative Filtering) 121.2.3, Kỹ thuật Hybrid 131.3. Các phương pháp lọc cộng tác 131.3.1, Lọc cộng tác dựa vào bộ nhớ 141.3.2, Lọc cộng tác dựa vào mô hình (Model-Based Collaborative Filtering) 14CHƯƠNG 2: KỸ THUẬT LỌC CỘNG TÁC 162.1. Giới thiệu bài toán lọc cộng tác 162.2. Các phương pháp tính độ tương tự giữa các người dùng 162.2.1. Khoảng cách Manhattan 162.2.2. Khoảng cách Euclidean. 182.2.3. Hệ số tương quan Pearson. 202.2.4. Hệ số tương tự Cosine. 222.3. Phương pháp cải tiến K-hàng xóm gần nhất (k-nearest neighbor) 242.3.1 Thuật toán KNN dựa trên người dùng. 252.3.2 Thuật toán KNN dựa trên sản phẩm: 272.4. Mô hình nhân tố ẩn. 292.4.1 Phương pháp tiếp cận vùng lân cận (the neighborhood approach) 292.4.2 Mô hình nhân tố ẩn (latent factor models)[3] 302.4.2.1. Cơ sở lý thuyết 302.4.2.2. Bài toán: 312.4.3. Phương pháp ma trận thừa số (Matrix Factorization Methods)[6] 322.4.4. Thuật toán gradient descent ngẫu nhiên. 352.4.4.1. Thuật toán Gradient descent (GD) 352.4.4.2.Thuật toán gradient descent ngẫu nhiên 372.4.4.3. Thuật toán SGD dùng cho phân tích ma trận (ma trận thừa số) 4162.4.4.4. So sánh giữa thuật toán GD và SGD 432.5. Tiêu chuẩn đánh giá 442.5.1.Mean absolute error (MAE) 442.5.2. Root mean square error (RMSE) 44CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁVỚI DỮ LIỆU PHIM ẢNH 463.1. Dữ liệu thực nghiệm. 463.1.1. Tập dữ liệu thực nghiệm. 463.1.2. Thông tin chi tiết về định dạng của bộ dữ liệu của Movielens[15] 473.2. Phương pháp thực nghiệm 493.2.1. Môi trường thực nghiệm 493.2.2. Phương pháp tiến hành thực nghiệm 493.3. So sánh và đánh giá kết quả thực nghiệm 503.3.1. Kết quả thực nghiệm 503.3.2. So sánh và đánh giá 523.3.2.1. Các phương pháp cơ sở 523.3.2.2. Thuật toán SGD 52KẾT LUẬN 54TÀI LIỆU THAM KHẢO 557Mở đầu Tươngtáccánhânlàhoạtđộng/sựviệcdiễnratrêntoànthếgiới,thậmchícótừhàngtrămnămtrướcchođếnngàynay.Nhữngnăm1990,tươngtáccánhânítnhiềucũngđãcómặt.Theothườnglệ,khiđivàomộtcửahàngsáchquenthuộc,chủhàngsẽchàođónnhư:“Cóbáomớingàyhômnayđấy!”,chủhàngbiếtrằngkháchhàngcủamìnhmuốn điềugìkhiđếnđây.Hoặcchủhàngcóthểgiới thiệucho mộtvàiquyểnsáchmàkháchhàngcủamìnhcóthểquantâmdựatrênnhữngsởthíchcủakhách.Hoặckhiđivàoquánnướcquen,ngườiphụcvụsẽhỏi:“Nhưthườnglệchứ?” Khoảng30nămvềtrước,khibạnmuốnmuachiếctiviởcửahàngđiệnmáythìcóvàisựlựachọnphổbiếnchobạn:PanasonicvàSamsunghayLG.Nhữngnămsauđó,bạncónhiềusựlựachọnphongphúhơn,bạnchọnhãngSamsungthìtrongđócònnhiềulựachọnnhư:LEDhayLCD,baonhiêuinch?… Hàngngàycóhàngtrămbàihátđượcthuâm,hàngtrămđầusáchđượcxuấtbảntrênthếgiới,trongkhiđócáccửahàngchỉcógiớihạncácđầusáchhoặccácbàihát,cácbộphim…Từđó,cácdịchvụtrựctuyếnđượcrađờivàđápứngnhucầungàycàngcaocủangườidùng. Chođếnngàynay,sựtươngtáccánhânvẫnluôntồntại,thậmchíbạncóhàngtriệusự lựachọn.Mỗigiâycácphương tiệntruyềnthôngđược thêmvàomạng.Mỗiphút100tậptinmớicósẵntrênusenet.24/24giờvideođượctảilênYouTube.Mỗigiờ180cuốnsáchmớiđượcxuấtbản.Mỗingàycàngcóthêmnhiềulựachọncácsảnphẩmđểmuatrongthếgiớithực. Bạnmuốnmuamộtsốbàinhạc?iTunescókhoảng11triệubàihátđểlựachọnvàhọđãbánđược16tỷbàihátvàotháng10năm2011.NếubạnmuốnnhiềuhơnsựlựachọnthìcóthểđiđếnSpotifyvới15triệubàihát.Bạnmuốnmuamộtcuốnsách,Amazoncungcấphơn2triệucuốnsáchđểbạnlựachọn. Trongcuộcsốngcủachúngtangàynay,vớisựpháttriểnkhôngngừngcủacôngnghệthôngtin,nguồnthôngtinquáphongphúlàmchobạnkhôngcóđủthờigianđểxemxétlựachọntấtcảcáccuốnsách,phim,tạpchíhaybàihát…bạnkhôngbiếtmìnhnênxemphimgì,đọccuốnsáchnàophùhợpvớisởthích,nhucầucủabảnthân. Vấnđềcấpthiếtđặtralàcầnmộthệthốnghỗtrợngườidùngchọnlựanhữngsản phẩm phù hợp với nhu cầu của người dùng, từ đó hệ thống khuyến nghị được8nghiêncứuvàpháttriểnkhôngngừngnhằmđạthiệuquảnhấttrongviệctươngtácvớingườidùng.Hệthốngkhuyếnnghị(RecommenderSystems-RS)làgiảipháphiệuquảnhấtgiảiquyếtvấnđềtrên. Chính vì vậy trong luận văn này, chúng tôi xin được trình bày về hệ thốngkhuyếnnghị.Trongphạmviluậnvăn,chúngtôitậptrungnghiêncứuvềkỹthuậtlọccộngtácvàphântíchcácphươngphápcơbảnđểtìmmộtngườihoặcmộtnhómngườigầnnhấtvớingườidùnghiệntạicầnkhuyếnnghị.Đểgiảmthiểusaisốtrongdựđoánchúngtôitrìnhbàynghiêncứucủamìnhvềphươngphápmatrậnthừasốcụthểhơnlàthuậttoángradientdescentngẫunhiên.Nộidungchínhcủaluậnvănnàyđượcchialàm3chương:Chương 1:GiớithiệutổngquanvềhệthốngkhuyếnnghịChương 2:KỹthuậtlọccộngtácChương 3:Thựcnghiệmvàđánhgiávớidữliệuphimảnh Trongchương1,chúngtôiđitìmhiểuchungvềhệthốngkhuyếnnghị,cáckỹthuậtlọcthôngtintronghệthốngkhuyếnnghị:lọcdựavàonộidung,lọccộngtácvàkỹthuậtkếthợpHybrid,cácphươngpháplọccộngtácnhư:Lọcdựavàobộnhớvàlọcdựavàomôhình.Trongchương2,chúngtôitrìnhbàychitiếthơnvềkỹthuậtlọccộngtác,cácphươngpháptínhđộtươngtựgiữacácngườidùng,phươngphápmatrậnthừasố,thuậttoángradientdescentngẫunhiênvàcáctiêuchuẩnđánhgiádựđoán.Chương3,chúngtôitiếnhànhthựcnghiệmtrênbộdữliệucủaMovielensvới100.000đánhgiá,sauđódựavàokếtquảthựcnghiệmđểđánhgiá,phântíchvàsosánhtínhhiệuquảcủatừngphươngphápvàthuậttoánđãnêutrongchương2. 9CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG KHUYẾN NGHỊ 1.1. Khái niệm chung: 1.1.1. Lọc thông tin (Information Filtering _IF) Hình 1.1: Mô hình hệ thống lọc thông tin Giảmquátảithôngtinlàmụctiêuchínhcủalọcthôngtin(Information Filtering _IF)vànóđãđượccôngnhậnlàmộttrongnhữngưutiêntrongviệcpháttriểnhệthốngthôngtindựatrênwebhiệnnay.Cungcấpcáctàiliệucóliênquandựatrênsởthíchkháchhàng.Côngnghệkhuyếnnghịđượctrìnhbàynhưlàmộtmôhìnhmớicủasựtìmkiếmnơimàcácmặthàngcóliênquantìmrangườisửdụngthayvìngườisửdụngtìmkiếmchúng.Xuhướngmớitrongcôngnghệthôngtinnhưmạngxãhộivàthiếtbịdi10động đang thực hiện nghiên cứu cá nhân được ưu tiên hàng đầu. Nghiên cứu kháchhàngvàtiếpthịcómộttruyềnthốnglâuđời.Vớinhữngtiếnbộtrongcôngnghệthôngtin, nó đã phát triển và ngày càng tinh vi mang lại hiệu quả cho các hệ thống trựctuyến.Lọccộngtác,hệthốngkhuyếnnghị,hệ thốngtrợgiúpcánhân,lọcxãhội,hệthốngkhaithácdữliệuxãhội,vàcáchệthốngthíchnghingườidùng cóthểđượcgọichunglàhệthốnglọcthôngtin(IF).Ngàynay,hệthốnglọcthôngtinởkhắpmọinơi,trongmọingànhcôngnghiệpvàdịchvụ,từtiếpthịchosứckhỏe,dulịch,giáodục,giảitrí, Vậy,hệthốnglọcthôngtinlàmộthệthốngloạibỏthôngtindưthừahoặckhôngmongmuốntừmộtluồngthôngtinsửdụngtựđộngtrênmáyvitínhMụctiêuchínhcủanólàquảnlýcủatìnhtrạngquátảithôngtinvàtăngtỷlệngữnghĩacủatínhiệutrênnhiễu.Đểthựchiệncáchồsơnàyđượcsosánhvớimộtsốđặctínhthamkhảo.1.1.2. Hệ thống khuyến nghị (Recommender System) Hệthốngkhuyếnnghị(Recommender System)[7] làmộtloạihìnhcụthểcủakỹthuậtlọcthôngtin(nhưphimảnh,âmnhạc,trangweb,tintức)màngườidùngquantâm.NórấtquantrọngchosựthànhcôngcủathươngmạiđiệntửvàngànhcôngnghiệpCNTThiệnnay,vàdầndầntrởnênphổcậptrongcácứngdụngkhácnhau(vídụnhưdựánNetflix,Googletintức,Amazon).Làmộthệthốngkhuyếnnghịchuyênnghiệpxâydựngdựatrênhồsơquákhứcủangườidùng,hệthốngsosánhhồsơcủangườidùngvớimộtsốđặcđiểmtàiliệuthamkhảo,vàtìmcáchđểdựđoán“đánhgiá”màngườidùngsẽcungcấpchomộtmụcmàngườidùngđóvẫnchưađánhgiá.Tronghầuhếtcáctrườnghợp,hệthốngkhuyếnnghịtươngứngvớimộtvấnđềkhaithácdữliệuquymôlớn.Làhệthốngcókhảnăngtựđộngphântích,phânloại,lựachọnvàcungcấpchongườidùngnhữngthôngtin,hànghóahaydịchvụmàhọquantâm.Hình 1.2: Một ví dụ về mô hình khuyến nghị sản phẩm 111.1.3. Giới thiệu bài toán về hệ thống khuyến nghị: Cho U là tập tất cả người dùng; P là tập tất cả các sản phẩm(sách, bài hát,phim…)cóthểtưvấn.TậpPcóthểrấtlớn,từhàngtrămngànđếnhàngtriệusảnphẩm.TậpUtrongmộtsốtrườnghợpcũngcóthểlêntớihàngtriệungườidùng.Hàmr(u,p)lànhữngđánhgiámứcđộphùhợp(xếphạng)củasảnphẩmpvớingườidùngu,r:UxPR.Vớimỗingườidùngu∈Ucầntìms∈ảnphẩmp’ Psaochohàmr(u,p’)đạtgiátrịlớnnh∀ ∈ất: u U,p’=argmaxp∈Pr(u,p) Tronghệthốngkhuyếnnghị,nhữngđánhgiáđượcthểhiệnbằngcáchìnhthứcthôngthườngnhư:thíchvàkhôngthích(hìnhbàntayvớingóntrỏ:youtube.com),sốsao(thườngtừ1-5sao)…1.2. Các kỹ thuật lọc cho hệ thống khuyến nghị [4] Trongviệclựachọnsảnphẩmhoặcdịchvụ(gọichunglàItem),ngườidùngthườnggặpphảinhữngkhókhănlà: LượngItem:Mỗi ngày,cóhàngtriệuthông tinđượcđăngtảilêninternetmỗingày,ngườidùngkhôngbiếtmìnhnênvàkhôngnênsửdụngItemnào? ThôngtinvềItem:dolượngItemlàvôcùnglớn,nênUserkhôngthểtìmhiểuđượctấtcảcácItemvềnộidung,chứcnăngcũngnhưItemcóphùhợpvớinhucầucủauserkhông? Gợiýđặtrađểgiảiquyếtcácvấnđềkhókhăntrênlà: Khaithácnhữngkhíacạnhcạnhliênquanđếnnộidungthôngtinsảnphẩmhoặcngườidùngđãtừngsửdụnghaytruynhậptrongquákhứđểkhuyếnnghị.Đâylàkỹthuậtlọcdựatheonộidung(Content-BasedFiltering) Lựa chọn dựa trên ý kiến hay lời khuyên của những ngườidùng khác về cácItem.Hệthốngkhuyếnnghịápdụngcácthuậttoántậndụngcácgợiýđượccungcấpbởimộtcộng đồngngười dùngtươngtựsauđócung cấpcho ngườidùngđanghoạtđộng(ngườiđangtìmkiếmcácđềxuất).Phươngphápnàyđượcgọilàlọccộngtác(CollaborativeFiltering_CF)Sovớilọctheonộidung,lọccộngtáccómộtsốưuđiểmnhưđơngiảntrongcàiđặtvàcóthểlọcđượcmọiloạithôngtinhayhànghoámàkhôngcầnphảibiểudiễndướidạngvănbản.121.2.1. Kỹ thuật lọc dựa theo nội dung: Vớikỹthuậtkhuyếnnghịdựatrênnộidung[10],mứcđộphùhợpr(u,p)củasảnphẩmphẩmpvớingườidùnguđượcđánhgiádựatrênmứcđộphùhợpr(u,pj),trongđópjPvàtươngtựnhưp.Vídụ,đểgợiýmộtbộphimchongườidùngu,hệthốngtưvấnsẽtìmcácđặcđiểmcủa nhữngbộ phimtừng đượcuđánh giá cao(nhưdiễn viên, đạodiễn…);sauđóchỉnhữngbộphimtươngđồngvớisởthíchcủacmớiđượcgiớithiệu.Hướngtiếpcậndựatrênnộidungbắtnguồntừnhữngnghiêncứuvềthuthậpthôngtin(IR-informationretrieval)vàlọcthôngtin(IF-informationfiltering).Dođó,rấtnhiềuhệthốngdựatrênnộidunghiệnnaytậptrungvàotưvấncácđốitượngchứadữliệutextnhưvănbản,tintức,website…NhữngtiếnbộsovớihướngtiếpcậncũcủaIRlàdoviệcsửdụnghồsơvềngườidùng(chứathôngtinvềsởthích,nhucầu…).Hồsơnàyđượcxâydựngdựatrênnhữngthôngtinđượcngườidùngcungcấptrựctiếp(khitrảlờikhảosát)hoặcgiántiếp(dokhaipháthôngtintừcácgiaodịchcủangườidùng).Hình 1.3: Mô hình kỹ thuật lọc dựa theo nội dung 1.2.2. Kỹ thuật lọc cộng tác (Collaborative Filtering) Kỹthuậtlọccộngtác(CollaborativeFiltering)dựatrênnguyêntắchoạtđộnglàcáckhuyếnnghịdựatrênảnhhưởngcủanhiềungườikhácnhau,cáccộngtáccủanhiềungườinàysẽtrở thành khuyến nghị. Khácsovớikỹ thuậtlọc cộng tác dựa trên nộidụng,hệthốngcộngtácdựđoánmứcđộphùhợpr(u,p)củamộtsảnphẩmpvớingườidùngudựatrênmứcđộphùhợpr(ui,p)giữangườidùnguivàp,trongđóuilàngườicócùngsởthíchvớiu.Vídụ,đểgợiýmộtbộphimchongườidùngu,đầutiênhệthống13cộngtáctìmnhữngngườidùngkháccócùngsởthíchphimảnhvớiu.Sauđó,nhữngbộphimđượchọđánhgiácaosẽđượcdùngđểtưvấnchou.Chitiếtcụthểvềkỹthuậtnàysẽđượctôitrìnhbàytrongchương2.1.2.3, Kỹ thuật Hybrid KỹthuậtHybrid[9]làphươngphápkếthợpcủacảhaikỹthuậttrên.Mộtsốứngdụngkếthợpcảhaikỹthuậtlọcchohệthốngkhuyếnnghịdựatheonộidungvàlọccộngtác.Mỗikỹthuậtđềucónhữngưuđiểmvànhượcđiểmriêng,dođókhikếthợpcóthểkhắcphụcnhữnghạnchếcủatừngkỹthuật.Nócảithiệnhiệusuấtdựđoán,quantrọng hơn, từ đó vượt qua những vấn đề lọc thông tin như thưa thớt và mất thôngtin.Tuy nhiên, sự kếthợp của hai kỹ thuật để thực hiện sẽ gia tăng phức tạp và giáthànhcao.ThôngthườnghầuhếtcáchệthốngkhuyếnnghịthươngmạilàHybrid,vídụ:hệthốngkhuyếnnghịtintứccủaGoogleThôngthườngcó4cáchđểkếthợpnhưsau: Càiđặthaiphươngphápriêngrẽrồikếthợpdựđoáncủachúngvớinhau:Cóhaikịchbảnchotrườnghợpnàylà:+ Cách1:Kếthợpkếtquảcủacảhaiphươngphápthànhmộtkếtquảchungduynhất.+ Cách2:Tạimỗithờiđiểmchọnmộtphươngphápchokếtquảtốthơn(vídụ:HệthốngDailylearner) Tíchhợpcácđặctrưngcủaphươngphápdựatrênnộidungvàohệthốngcộngtác. Tích hợp các đặc trưng của phương pháp cộng tácvào hệ thống dựa trên nộidung. Xâydựngmôhìnhhợpnhất,baogồmcácđặctrưngcủacảhaiphươngpháp.1.3. Các phương pháp lọc cộng tác Vớisốlượngquálớncácsảnphẩmcótrêninternetthìthôngthườngmộtngườidùngchỉđánhgiáhữuhạnmsảnphẩm(vớimsảnphẩmđượcđánhgiánhỏhơnrấtnhiềusovớitậpMsảnphẩm).KhókhănđặtralàdựđoánđánhgiámộtngườidùngchotậpMsảnphẩmlàđiềurấtkhókhăn,hơnnữatậpMsảnphẩmluônluônthayđổivàtheothờigianthìngàycàngtănglên.NgoàirađểdựđoánđánhgiácủaNngườidùngvới M sản phẩm sẽ gây ra tốc độ xử lý chậm => mất nhiều thời gian, lãng phí tài14nguyên…Mộttrongnhữnggiảiphápđặtrađểgiảiquyếtvấnđềtrênlà:kỹthuậtlọccộngtác(CollaborativeFiltering) Lọc cộng tác chohệ thống khuyến nghị được tiếp cận theohai phương phápchính: Lọc cộng tác dựa vào bộ nhớ (Memory-Based Collaborative Filtering) và lọccộngtácdựavàomôhình(Model-BasedCollaborativeFiltering).Điểmkhácbiệtquantrọngtronghaiphươngpháptiếpcậnlà:Lọcdựavàobộnhớtiếnhànhxâydựngđồngthờimôhìnhhuấnluyệnvàmôhìnhdựđoán.Ngượclại,lọcdựavàomôhìnhxâydựngmôhìnhhuấnluyệnvàmôhìnhdựđoánđộclậpnhau.Sovớilọccộngtácdựavàomôhình,lọccộngtácdựavàobộnhớđượcápdụngrộngrãihơndotínhhiệuquả,đơngiảnvàcóđộchínhxáckhácao.1.3.1, Lọc cộng tác dựa vào bộ nhớ Phươngpháplọccộngtácdựavàobộnhớ[11]thườngsửdụngtoànbộdữliệuđãcócủangườidùngđểdựđoánđánhgiácủangườiđóvềmộtsảnphẩmmới.Làphươngphápcókhảnăngđưatrựctiếpdữliệumớivàobảngdữliệunênnóđạtkhánhiềuthànhcôngkhiđượcápdụngvàocácứngdụngthựctế.Đặcbiệt,kỹthuậtnàypháthuytínhhiệuquảcaotrongcáchệthốngtrựctuyến(lànơiluôncódữliệumớiđượccậpnhật)thườngđưaracácdựđoánchínhxáchơn. Lọccộngtácdựavàobộnhớ(Memory-BasedCollaborativeFiltering)đượcthựchiệntheohaiphươngphápchính:Lọcdựavàongườidùng(User-BasedCollaborativeFiltering)vàlọcdựavàosảnphẩm(Item-BasedCollaborativeFiltering).Hiệuquảcủacácphươngpháplọcdựavàobộnhớphụthuộcvàođộđotươngtựgiữacáccặpngườidùnghoặcsảnphẩm.Phươngpháplọccộngtácdựavàobộnhớ,tôisẽtrìnhbàycụthểhơntrongchương2.1.3.2, Lọc cộng tác dựa vào mô hình (Model-Based Collaborative Filtering) Phươngpháptiếpcậndựatrênmôhình[17]khôngsửdụngtấtcảdữliệuđãcóđểđưaradựđoán,thayvàođóchúngnắmbắtthôngtintrongtừngbướcgiốngnhưmộtsựthỏathuậnvềmôhìnhcácsởthíchngườidùng.Cácmôhìnhđượcpháttriểnbằngcáchsửdụngphươngthứckhaithácdữliệu,thuậttoánhọcmáyđểtìmmôhìnhdựatrêndữliệu huấn luyện.Chúng được sử dụngđể đưa radựđoán cho dữ liệu thực tế.Có rấtnhiềuthuậttoánCFdựatrênmôhìnhnhư:mạngBayes,môhìnhphânnhóm,môhìnhngữnghĩatiềmẩn.15 Ưuđiểmcủamôhìnhnàylàxửlýdữliệuthưathớttốthơnsovớilọcdựatrênbộnhớ.Điềunàygiúpvớikhảnăngmởrộngvớicáctậpdữliệulớn,nócảithiệnhiệusuấtdựđoán.Nhữngnhượcđiểmcủaphươngphápnàylàgiáthànhcaotrongviệcxâydựngmôhình,cầnphảicómộtsựcânbằnggiữahiệusuấtvàkhảnăngmởrộngdựđoán,cóthểbịmấtthôngtinhữuíchdomôhìnhgiảmvàmộtsốmôhìnhcókhókhăntrongviệcgiảinghĩacácdựđoán.16CHƯƠNG 2: KỸ THUẬT LỌC CỘNG TÁC Phươngpháp khuyếnnghịtôiđangxemxéttrongchươngnàyđượcgọilàlọccộngtác.Nó đượcgọilàcộng tác bởivì nóđưa racáckhuyến nghị dựatrên nhữngngườidùngkháctrongthựctế,mọingườicộngtácđểđưarakhuyếnnghị.Nguyênlýhoạtđộngcủahệthốngkhuyếnnghịlà:giảsửđểgiớithiệumộtcuốnsáchchobạn.Tôitìmkiếmnhữngngười sửdụng khác củatrangwebđể tìmmộttrong sốđólà ngườitươngtựnhưbạndựatrênnhữngcuốnsáchmàbạnvàngườisửdụngđóthích.2.1. Giới thiệu bài toán lọc cộng tác ChomộttậphữuhạngồmcóNngườidùngU={u1,u2,…,uN},mộttậpgồmMsảnphẩmP={p1,p2,…,pM}.Mỗisảnphẩmpj∈Pcóthểlàphim,ảnh,tạpchí,tàiliệu,sách,báo,hànghóa,dịchvụhoặcbấtkỳdạngthôngtinnàomàngườidùngcầnđến.MộtmatrậnR=(rij)vớii=1,…N;j=1,…,MthểhiệnmốiquanhệgiữatậpngườidùngUvàtậpsảnphẩmP.Trongđórijlàđánhgiácủangườidùnguichosảnphẩmpj. Cácgiátrịrijnhậngiátrịtheocáchìnhthức:thuthậptrựctiếpýkiếnđánhgiácủangườidùnguivềsảnphầmpjhoặcthuthậpgiántiếpthôngquacơchếphảnhồicủangườidùng. Gọi uxlàngườidùnghiện thờicầnđược khuyến nghịsản phẩm py, vớirxy=Ø(nghĩalàngườidùnguxchưađánhgiáhoặcchưatừngbiếtđếnsảnphẩmpy).Bàitoánlọccộngtáccónhiệmvụdựđoánđánhgiárxycủangườidùnguxvớisảnphẩmpy.Từđó, giới thiệu cho người dùng ux nhữngsản phẩm phù hợp nhấtdựa trên giátrị rxy,nhữngsảnphẩmđượckhuyếnnghịchongườidùnguxlànhữngsảnphẩmcóđánhgiácao.2.2. Các phương pháp tính độ tương tự giữa các người dùng Chouilàngườidùnghiệnthời,ualàngườidùngcầntínhđộtươngtựvớingườidùngui,riplàđánhgiácủangườidùnguichosảnphẩmpvàraplàđánhgiácủangườidùnguachosảnphẩmp.Vớitậpmsảnphẩmlànhữngsảnphẩmmàngườidùnguivàngườidùnguacùngđánhgiá. 2.2.1. Khoảng cách Manhattan 17 MộttrongnhữngcáchđơngiảnnhấtđểđokhoảngcáchgiữahaiđiểmdữliệulàkhoảngcáchManhattan[1].Tính độ tương tự giữa người dùng ua và ui sử dụng phương pháp khoảng cáchManhattanđượctínhbằngcôngthứcsau: 1,Manhattan appimip ad u ur r Trongkhônggian2chiều,mỗingườidùngđượcđạidiệnbởimộtđiểm(x,y),tôisẽbổsungthêmsubscriptchoxvàyđểthamkhảonhữngngườidùngkhácnhau.Vìvậy,tacó(x1,y1)và(x2,y2)lầnlượtlàcácđiểmdữliệuthểhiệnđánhgiácủauavàuicho2sảnphẩmkhácnhauxvày.KhiđókhoảngcáchManhattanđượctínhbằngcôngthứcsau:|x1-x2|+|y1-y2|Chobảngvídụ1sau: TheHobbit HarryPotterJohn 2 2Peter 4 4Bảng 2.1: Ví dụ 1 về người dùng đánh giá sản phẩm Khiđó,khoảng cáchManhattanđượcđịnhnghĩalạivàbiểudiễntrongkhônggian2chiềunhưsau:18Hình 2.1: Mô hình đồ thị tính khoảng cách ManhattandManhattan(Peter, John)=|2-4|+|2-4|=2+2=4 GiátrịkhoảngcáchgiữaPetervàJohnkhiápdụngphươngpháptínhkhoảngcáchManhattanlà:dManhattan=4.Ápdụngtươngtựphươngphápnàyđểtínhkhoảngcáchvớingườidùngkhác,sauđósẽchọnngườidùngcógiátrịkhoảngcáchnhỏnhấtvớingườidùnghiệntại.2.2.2. Khoảng cách Euclidean. ƯuđiểmrấtrõràngkhisửdụngcôngthứctínhkhoảngcáchManhattanlàtínhtoánđơngiảnvàrấtnhanh.Tuynhiên,khoảngcáchEuclidean[1]thayvìđixungquanhcáckhốithìbạnchỉcầnvẽmộtđườngthẳnggiữahaiđiểmdữliệuvàđokhoảngcáchgiữahaiđiểmbằngcáchsửdụngđịnhlýPythagorean. CôngthứctínhkhoảngcáchEuclideantổngquát: 21, Euclidean a imip appd u u r r 19 Trongkhônggian2chiều,ápdụngcôngthứctínhkhoảngcáchEuclideannhưsau:Vớihaiđiểmdữliệu(x1,y1)và(x2,y2)lầnlượtlàcácđiểmdữliệuthểhiệnđánhgiácủauavàuicho2sảnphẩmkhácnhauxvày. Bảng dữ liệu 2.1thể hiện đánh giá củaPeter và John đối với 2bộ phim TheHobbitvàHarryPotterlà: TheHobbit HarryPotterJohn 2 2Peter 4 4Khiđó,khoảngcáchEuclideanđượctínhnhưsau:Hình 2.2: Mô hình đồ thị tính khoảng cách Euclidean 2 2(Peter,John) 2 4 2 4 8 2.8Euclideand GiátrịkhoảngcáchgiữaPetervàJohnkhiápdụngphươngpháptínhkhoảngcáchEuclideanlà:dEuclidean=2.8.Ápdụngtươngtựphươngphápnàyđểtínhkhoảngcáchvớingườidùngkhác,sauđósẽchọnngườidùngcógiátrịkhoảngcáchnhỏnhấtvớingườidùnghiệntại.202.2.3. Hệ số tương quan Pearson. Phức tạp hơn hai công thức tính khoảng cách Manhattan và khoảng cáchEuclideannhưngthườngnhậnkếtquảtốthơnvớidữliệukhôngbìnhthường,tôiđangnóiđếnlàtrườnghợpngườidùngcónhữnghànhviđánhgiálàkhácnhaunhư: mộtngườidùngchỉcungcấpnhữngđánhgiáxấu(đánhgiáthấp)chohầuhếttấtcảcácsảnphẩmngườiđóđánhgiá,ngườidùngkháclạithườngxuyêncungcấpnhữngđánhgiácao (tốt)cho các sảnphẩm người đóđãđánh giá,…Trongtrườnghợp này,sửdụngphươngpháphệsốtươngquanPearson[1]sẽđạtkếtquảtốiưuhơnsovớihaiphươngpháptrên.Hơnnữatrongthựctế,dotínhchấtđangườidùngdẫntớinhiềuquanđiểmkhácnhaunêntrườnghợpnàyphầnlớnđềuxảyra. Hệ sốtương quan Pearson sẽ có giá trị nằm trong khoảng từ-11. Khi tínhkhoảng cách giữa hai người dùng màRpearson=1 thì haingười dùng đócó quanđiểmđánhgiágiốngnhauhoàntoàn,Rpearson=-1thìhaingườidùngnàysẽbấtđồngvớinhauvềmặtquanđiểmđánhgiá.VìvậydựavàohệsốtươngquanPearsonnàychúngtôicóthểtìmramộtngườigiốngvớingườimàchúngtôiquantâmmàkhôngbịảnhhưởngbởihànhvingườidùng. HệsốtươngquanPearsonđượctínhbằngcôngthứctínhsau: 1 112 21 12 21 1 ,.*m map ipmp pap ippm map ipP e a rs o nm mp pap ip pipar rr rmr rr rm mR u u Chobảngdữliệu2sau: Book1 Book2 Book3 Book4 Book5Peter 1,5 1,5 3 2,7 5John 1 2 2 3 4Bảng 2.2: Ví dụ 2 về người dùng đánh giá sản phẩm 21 ÁpdụngcôngthứctínhhệsốtươngquanPearsontacóthểtínhđượcsựtươngtựgiữaPetervàJohnnhưsau:1map ippr r=1*1,5 1,5*2 3*2 2,7*3 5*4 =38,61mappr=1,5+1,5+3+2,7+5=121mippr=1,5+2+2+3+4=12,521mappr=1,52+1,52+32+2,72+52=45,7921mippr=12+22+22+32+42=34 2212113,745,79 45,79 37,54 8,255mapmpapprrm 221211234 34 28,8 5,25mapmpapprrm Vớicácgiátrịthamsốtrêntacó: 13,7*1238,65,7250,876,558,25*5,2Peter,JohnPearsonR SaukhiápdụngcôngthứctínhhệsốtươngquanPearsoncóthểthấyđượcgiátrịkhoảngcáchgiữaPetervàJohnlà:RPearson=0,87.Ápdụngtươngtựphươngphápnàyđể22tínhkhoảngcáchvớingườidùngkhác,sauđósẽchọnngườidùngcógiátrịRPearsonvớingườidùnghiệntạisaochogần1nhất. Trong không gian hai chiều thì tacó phương pháp hệ số tương quan Pearsonđượcđịnhnghĩalạivàbiểudiễnnhưsau: Hình 2.3: Mô hình đồ thị tính hệ số tương quan Pearson 2.2.4. Hệ số tương tự Cosine. HệsốtươngtựCosine[1](hayhệsốtươngđồngCosine)làđolườngvềsựgiốngnhau giữa hai vectơ của mộtvùng bên trong sản phẩm, cụ thể sẽ đogóc cosin giữachúng.HệsốtươngtựCosinephánđoánvềđịnhhướngchứkhôngphảivềđộlớn:haivectorcócùngđịnhhướnglàcóhệsốtươngđồngCosinelà1,haivectorcógiátrịgóclà900thìcóđộtươngtựlà0vàhaivectorđượccoilàđốinghịchnhaunếucóđộtươngđồnglà-1.Cosinetươngtựđượcđặcbiệtsửdụngtrongkhônggiandươngtính,trongđókếtquảtrongkhoảng[0,1].23 Đốivớimạngtrựctuyến,vớisốlượngngườidùngvàsảnphẩmlàkhổnglồdẫnđếnvấnđềthựctếlàcáctậpdữliệuđềurấtlớnvàthưathớt,nghĩalàvớitậpcácsảnphẩmvôcùngđồsộrấtnhiềutrườnghợpcónhiểusảnphẩmkhôngđượcđánhgiáhoặckhôngđượcngườidùngbiếtđến.Năm2011,Amazoncóhơn2triệuđầusáchdẫnđếntrườnghợpnhiềungườidùngkhônghềđánhgiámộttrongnhữngđầusáchtôiđánhgiá.Spotifycókhoảng15triệubàihát,vậythìđểtìmthấyngườidùngtươngtựtôithìđaphầnkhảnăngxảyrasẽlàtôivàngườidùngkháccósốbàihátcùngnghechungbằng0. HệsốtươngtựCosinesẽkhắcphụcphầnnàovấnđềthưathớtdữliệunày,nósẽbỏquacáckếtquả0-0.HệsốtươngtựCosineđượcđịnhnghĩanhưsau: 12 21 1, map ippa im map ipp pr rCos u ur r Chobảngsốliệu2.3sau: KafkaontheShore TheLittleprincePeter 4 2John 3 3Bảng 2.3: Ví dụ 3 về người dùng đánh giá sản phẩm Tacó: 12 2 2 22 21 14*3 2*3 18, 0,7723, 244 2 3 3map ippa im map ipp pr rCOS u ur r Trongkhônggianhaichiều,hệsốtươngtựCosineđượcđịnhnghĩalạivàbiếudiễndướidạngđồthịkhônggianhaichiềunhưsau:
Trích đoạn
- Thuật toán gradient descent ngẫu nhiên 35
- Thuật toán gradient descent ngẫu nhiên 37
- Dữ liệu thực nghiệm 46
Tài liệu liên quan
- Luận văn nghiên cứu hệ thống thị trường rau của thành phố thái bình
- 126
- 335
- 1
- Luận văn nghiên cứu khả năng thích nghi của hàu thái bình dương (crassostrea gigas thunberg, 1793) nuôi tại nghệ an
- 103
- 981
- 5
- Luận văn nghiên cứu hệ thống trồng trọt và khả năng chuyển đổi cơ cấu cây trồng theo hướng cải thiện hiệu quả sử dụng đất ở huyện tân yên tỉnh bắc giang
- 120
- 1
- 0
- Luận văn nghiên cứu hệ thống tiêu thụ thuốc thú y trên địa bàn hà nội
- 136
- 564
- 3
- Luận văn nghiên cứu hệ thống quản lý và phân cấp ngân sách nhà nước cho các dịch vụ công chủ yếu trên địa bàn huyện yên dũng, tỉnh bắc giang
- 134
- 734
- 1
- Luận văn nghiên cứu hệ thống cây trồng lấy lúa làm cơ sở tại huyện giao thủy nam định
- 95
- 516
- 0
- Tài liệu luận văn nghiên cứu hệ thống điều khiển mờ bằng MATLAB, chương 1 pdf
- 7
- 782
- 1
- Tài liệu luận văn nghiên cứu hệ thống điều khiển mờ bằng MATLAB, chương 9 ppt
- 12
- 766
- 1
- Tài liệu luận văn nghiêng cứu hệ thống điều khiển mờ bằng MATLAB, chương 12 doc
- 8
- 609
- 3
- Tài liệu Luận văn: Nghiên cứu hệ thống nồi hơi tự động, đi sâu phân tích hệ thống nồi hơi tự động Miura Boiler điều khiển bằng PLC doc
- 70
- 1
- 9
Tài liệu bạn tìm kiếm đã sẵn sàng tải về
(1.11 MB - 57 trang) - luận văn: nghiên cứu hệ thống khuyến nghị người dùng dựa vào lọc cộng tác Tải bản đầy đủ ngay ×Từ khóa » Hệ Thống Khuyến Nghị
-
Hệ Thống Khuyến Nghị - AI Best Practices - FPT Digital
-
Luận Văn: Hệ Thống Khuyến Nghị Cho Bài Toán Dịch Vụ Giá Trị…
-
Recommend Là Gì ? Tìm Hiểu Hệ Thống Recommendation System
-
[PDF] Phát Triển Một Số Phương Pháp Khuyến Nghị Hỗ
-
[PDF] Hệ Khuyến Nghị Trong Dự đoán Sở Thích Người Dùng ứng Dụng Trong
-
Các Mô Hình Hệ Thống Khuyến Nghị (recommendation) Thông Minh ...
-
Recommender Systems - Viblo
-
(PDF) PHÁT TRIỂN HỆ KHUYẾN NGHỊ VIỆC LÀM CHO SINH VIÊN ...
-
Nghiên Cứu, Xây Dựng Hệ Thống Khuyến Nghị Phim Tự động (tt)
-
Recommend Là Gì Vậy? Bạn Biết Gì Về Hệ Thống Khuyến Nghị?
-
[PDF] Ứng Dụng Các Mô Hình Học Sâu Vào Kĩ Thuật Lọc Cộng Tác
-
Hệ Thống Khuyến Nghị Dựa Trên Bối Cảnh | Xemtailieu
-
Hệ Thống đề Xuất - Wiko