forked from giangnguyen2412/InterpretableMLBook-Vietnamese
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Chapter3-Datasets.tex
87 lines (73 loc) · 9.91 KB
/
Chapter3-Datasets.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
\chapter{Các bộ dữ liệu}
Xuyên suốt cuốn sách này, tất cả cách mô hình và phương pháp được áp dụng cho các bộ dữ liệu thực tế đều có sẵn trên mạng. Ta sẽ dùng các tập dữ liệu khác nhau cho các tác vụ khác nhau: Phân loại, hồi quy, và phân loại văn bản.
\section{Thuê xe đạp (Hồi quy)}\label{chap_3.1}
Tập dữ liệu sau thống kê số lượng xe đạp được thuê mỗi ngày từ công ty thuê xe đạp Capital-Bikeshare ở Washington D.C, Mỹ, cùng với thông tin thời tiết và các mùa. Dữ liệu đã được cấp phép sử dụng tự do bởi Capital-Bikeshare. Nhóm tác giả Fanaee-T and Gama (2013) sau đó đã thêm thông tin thời tiết và mùa tương ứng. Mục tiêu cho bộ dữ liệu này là dự đoán có bao nhiêu chiếc xe được thuê dựa trên thông tin cho trước về thời tiết và mùa. Bộ dữ liệu có thể truy cập tải miễn phí tại đây: \href{http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset}{UCI Machine Learning Repository}.
Các đặc trưng (features) mới đã được thêm vào bộ dữ liệu nêu trên và không phải tất cả các đặc trưng có sẵn sẽ được dùng trong các ví dụ trong sách này. Danh sách các đặc trưng được dùng là:
\begin{itemize}
\item Số lượng xe đạp được thuê bởi cả khách hàng thông thường (casual) và thành viên (registered). Số lượng này sẽ là đầu ra của mô hình hồi quy.
\item Thông tin về mùa, xuân, hạ, thu, hoặc đông.
\item Ngày nghỉ lễ hoặc không nghỉ lễ.
\item Năm 2011 hoặc 2012.
\item Số lượng ngày tính từ 1/1/2011 (ngày đầu tiên trong bộ dữ liệu). Đặc trưng này được cân nhắc để theo dõi xu hướng dữ liệu theo thời gian.
\item Ngày làm việc hay cuối tuần.
\item Tình hình thời tiết ngày đó, ví dụ:
\begin{itemize}
\item Trời quang (clear), ít mây (few clouds), hơi mây (partly cloudy), hoặc nhiều mây (cloudy).
\item Sương (mist), sương + mây, sương + mây vụn (broken clouds), sương + ít mây.
\item Tuyết nhẹ, mưa nhẹ + giông (thunderstorm) + mây rải rác (scattered clouds), mưa nhẹ + mây rải rác.
\item Mưa nặng (heavy rain) + mưa tuyết nhẹ (ice pellets) + giông + sương, tuyết + sương.
\end{itemize}
\item Nhiệt độ theo độ Celsius.
\item Độ ẩm tương đối theo phần trăm (0\% - 100\%).
\item Tốc độ gió theo km/giờ.
\end{itemize}
Bộ dữ liệu trong sách đã được xử lý tương đối (slightly processing). Bạn đọc có thể tìm mã R trong \href{https://github.com/christophM/interpretable-ml-book/blob/master/R/get-bike-sharing-dataset.R}{trang Github} cùng với tệp \href{https://github.com/christophM/interpretable-ml-book/blob/master/data/bike.RData}{final RData file}.
\section{Bình luận rác trên Youtube (Phân loại văn bản)}
Dữ liệu được dùng là tập dữ liệu về phân loại bình luận rác (Alberto, Lochter, và Almeida (2015)).
Các bình luận này được thu thập thông qua Youtube API từ 5 trong số 10 video được xem nhiều nhất trên YouTube vào nửa đầu năm 2015. Cả 5 đều là video âm nhạc. Một trong số đó là ''Gangnam Style`` của PSY. Các nghệ sĩ khác là Katy Perry, LMFAO, Eminem và Shakira.
Nhìn qua một số bình luận, ta thấy các bình luận được gắn nhãn thủ công là ``rác'' hoặc ``có ý nghĩa''. Bình luận ``rác'' được mã hóa bằng ``1'' và ``có ý nghĩa'' bằng ``0".
\begin{table}[]
\centering
\caption{}
\label{tab:table}
\begin{tabular}{|l|l|}
\hline
CONTENT & CLASS \\ \hline
Huh, anyway check out this you{[}tube{]} channel: kobyoshi02 & 1 \\ \hline
\begin{tabular}[c]{@{}l@{}}Hey guys check out my new channel and our first vid \\ THIS IS US THE MONKEYS!!! I'm the monkey in the white shirt,\\ please leave a like comment and please subscribe!!!!\end{tabular} & 1 \\ \hline
just for test I have to say murdev.com & 1 \\ \hline
me shaking my sexy ass on my channel enjoy \textasciicircum{}\_\textasciicircum{} & 1 \\ \hline
watch?v=vtaRGgvGtWQ Check this out . & 1 \\ \hline
\begin{tabular}[c]{@{}l@{}}Hey, check out my new website!! This site is about kids \\ stuff. kidsmediausa . com\end{tabular} & 1 \\ \hline
Subscribe to my channel & 1 \\ \hline
i turned it on mute as soon is i came on i just wanted to check the views... & 0 \\ \hline
You should check my channel for Funny VIDEOS!! & 1 \\ \hline
and u should.d check my channel and tell me what I should do next! & 1 \\ \hline
\end{tabular}
\end{table}
Bạn cũng có thể truy cập YouTube và xem phần bình luận. Nhưng làm ơn đừng bị cuốn vào địa ngục YouTube và cuối cùng xem video những con khỉ ăn cắp và uống cocktail từ khách du lịch trên bãi biển. Trình phát hiện bình luận rác Google Spam có lẽ cũng đã thay đổi rất nhiều kể từ năm 2015.
\href{https://www.youtube.com/watch?v=9bZkp7q19f0&feature=player_embedded}{Xem qua video phá vỡ kỷ lục số lượt xem ''Gangnam Style`` tại đây.}
Nếu bạn muốn thao tác với dữ liệu, bạn có thể dùng file \href{https://github.com/christophM/interpretable-ml-book/blob/master/data/ycomments.RData}{RData} cùng với tập lệnh \href{https://github.com/christophM/interpretable-ml-book/blob/master/R/get-SpamTube-dataset.R}{R} với một số hàm trong Github của cuốn sách.
\section{Các nguy cơ gây ung thư cổ tử cung (Phân loại)} \label{chap_3.3}
Bộ dữ liệu ung thư cổ tử cung bao gồm các chỉ số và nguy cơ để dự đoán liệu một người phụ nữ sẽ bị ung thư cổ tử cung hay không. Các tính năng bao gồm thống kê dân số (như tuổi), lối sống, và lịch sử y tế. Dữ liệu có thể được tải xuống từ kho lưu trữ của \href{https://archive.ics.uci.edu/ml/datasets/Cervical+cancer+\%28Risk+Factors\%29}{UCI Machine Learning} và được mô tả bởi Fernandes, Cardoso và Fernandes (2017).
Một số đặc trưng (features) được sử dụng trong các ví dụ của sách là:
\begin{itemize}
\item Tuổi hiện tại
\item Số lượng bạn tình
\item Tuổi lần đầu quan hệ tình dục
\item Số lần mang thai
\item Có dùng thuốc lá hay không?
\item Số năm đã dùng thuốc lá
\item Có dùng thuốc tránh thai ảnh hưởng nội tiết tố?
\item Số năm đã dùng thuốc tránh thai ảnh hưởng nội tiết tố
\item Có dùng vòng tránh thai hay không?
\item Số năm đã dùng vòng tránh thai
\item Bệnh nhân có từng mắc bệnh lây qua đường tình dục hay không?
\item Số lượng bệnh truyền nhiễm qua đường tình dục đã được chẩn đoán
\item Thời gian kể từ khi chẩn đoán bệnh (STD) đầu tiên
\item Thời gian kể từ lần chẩn đoán bệnh (STD) cuối cùng
\item Kết quả sinh thiết ''khoẻ mạnh`` hay ''ung thư'' (mục tiêu/kết quả)
\end{itemize}
Kết quả sinh thiết đóng vai trò như là tiêu chuẩn vàng để chẩn đoán ung thư cổ tử cung. Đối với các ví dụ trong cuốn sách này, kết quả sinh thiết đã được sử dụng làm nhãn. Các giá trị bị thiếu trong mỗi cột được thay thế bởi giá trị xuất hiện nhiều nhất, đây là một giải pháp chưa tốt, vì giá trị có thể tương quan với xác suất mà giá trị bị thiếu. Rất có thể sẽ co sai lệch bởi vì các câu hỏi mang tính riêng tư rất cao. Nhưng đây không phải là một cuốn sách về việc xử lí việc thiếu dữ liệu, nên giải phá này được tạm chấp nhận.
Để mô phỏng lại các ví dụ của cuốn sách với bộ dữ liệu này, hãy tìm tập lệnh \href{https://github.com/christophM/interpretable-ml-book/blob/master/R/get-cervical-cancer-dataset.R}{R tiền xử lý (preprocessing R-script)} và tệp \href{https://github.com/christophM/interpretable-ml-book/blob/master/data/cervical.RData}{final RData} trong Github của cuốn sách.
\clearpage