Bài tập cây quyết định có đáp án

     

Bạn có biết rằng vào cuộc sống hàng ngày, bạn vẫn đang sử dụng phương pháp Trong lý thuyết quyết định, một cây quyết định là một đồ thị của những quyết định và các kết quả bao gồm thể tất cả của nó. Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn, hỗ trợ quy trình ra quyết định.

Bạn đang xem: Bài tập cây quyết định có đáp án


" target="_blank">Decision Tree (Cây quyết định). Chẳng hạn, bạn đến cực kỳ thị download sữa đến cả gia đình. Câu đầu tiên trong đầu bạn sẽ là: Bạn cần download từng nào sữa?

Bạn sẽ xác định: Nếu là ngày thường thì gia đình bạn sẽ sử dụng hết 1 lkhông nhiều sữa, còn cuối tuần thì sẽ là 1 trong những,5 lkhông nhiều. Như vậy, dựa theo ngày, bạn sẽ quyết định lượng thực phẩm cần download cho gia đình bạn.

Đó chính là một dạng của cây quyết định nhị phân.

Khái niệm Cây quyết định (Decision Tree)

Cây quyết định (Trong lý thuyết quyết định, một cây quyết định là một đồ thị của các quyết định cùng những kết quả có thể bao gồm của nó. Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu muốn muốn, hỗ trợ quy trình ra quyết định.


" target="_blank">Decision Tree) là một cây phân cấp bao gồm cấu trúc được sử dụng để phân lớp các đối tượng dựa vào dãy những luật. Các thuộc tính của đối tượngnbao gồm thể thuộc những kiểu dữ liệu khác biệt như Nhị phân (Binary) , Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) trong những lúc đó thuộc tính phân lớp phải tất cả kiểu dữ liệu là Binary hoặc Ordinal.

Tóm lại, mang lại dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ hình thành những luật để dự đoán lớp của các dữ liệu chưa biết.

Ta hãy xét một ví dụ 1 khiếp điển không giống về cây quyết định. Giả sử dựa theo thời tiết nhưng các bạn nam sẽ quyết định đi đá láng tốt không?

Những đặc điểm ban đầu là:

Thời tiếtĐộ ẩmGió

Dựa vào những thông báo trên, bạn gồm thể xây dựng được mô hình như sau:


Mô hình cây quyết định

Dựa theo quy mô trên, ta thấy:

Nếu trời nắng, độ ẩm bình thường thì khả năng các bạn nam giới đi chơi bóng sẽ cao. Còn nếu trời nắng, độ ẩm cao thì khả năng những bạn nam sẽ không đi chơi nhẵn.

Thuật toán Cây quyết định (Decision Tree)

Thuật toán thù ID3

Giờ chúng ta hãy cùng tìm kiếm hiểu giải pháp thức hoạt động của thuật tân oán cây quyết định thông qua thuật toán đơn giản ID3.

ID3 (J. R. Quinlan 1993) sử dụng phương pháp tmê man lam tìm kiếm kiếm từ bên trên xuống trải qua không gian của những nhánh tất cả thể không tồn tại backtracking. ID3 sử dụng Entropy vào học thứ với lý thuyết lên tiếng nói phổ biến là thước đo tính ngẫu nhiên của thông báo đang được xử lý. Entropy càng tốt, càng cực nhọc rút ra bất kỳ kết luận như thế nào từ công bố đó. Tung một đồng xu là một ví dụ về lên tiếng ngẫu nhiên, vào trường hợp này Entropy đạt cực đại bằng 1, không tồn tại kết luận làm sao giúp dự đoán thù được kết quả tung đồng xu.


" target="_blank">Entropy và Information Gain để xây dựng một cây quyết định.

Ta xét ví dụ 2:

Bạn muốn cẩn thận sự thành công của một bộ phyên ổn trải qua nhị yếu tố: diễn viên thiết yếu của phlặng cùng thể loại phim:

Lead ActorGenreHit(Y/N)
Amitabh BacchanActionYes
Amitabảo hành BacchanFictionYes
Amitabh BacchanRomanceNo
AmitaBH BacchanActionYes
Abhishek BacchanActionNo
Abhishek BacchanFictionNo
Abhishek BacchanRomanceYes

Giả sử, bạn muốn xác định độ thành công xuất sắc của bộ phlặng chỉ bên trên 1 yếu tố, bạn sẽ có nhì bí quyết thực hiện sau: qua diễn viên thiết yếu của phlặng cùng qua thể loại phim.



Qua sơ đồ, ta có thể thấy ví dụ ràng, với phương pháp thứ nhất, ta phân loại được rõ ràng, trong khi phương pháp thứ nhì, ta có một kết quả lộn xộn hơn. Và tương tự, cây quyết định sẽ thực hiện như trên Lúc thực hiện việc chọn những biến.

Có rất nhiều hệ số khác nhau mà phương pháp cây quyết định sử dụng để phân loại. Dưới đây, tôi sẽ đưa ra nhì hệ số phổ biến là Information Gain với Gain Ratio (Nhiều hơn còn hệ số Gini).

Entropy trong Cây quyết định (Decision Tree)

Entropy vào học thiết bị với lý thuyết báo cáo nói thông thường là thước đo tính ngẫu nhiên của ban bố đang được xử lý. Entropy càng cao, càng nặng nề đúc rút bất kỳ kết luận nào từ thông báo đó. Tung một đồng xu là một ví dụ về thông báo ngẫu nhiên, trong trường hợp này Entropy đạt cực đại bằng 1, không tồn tại kết luận làm sao giúp dự đoán thù được kết quả tung đồng xu.


" target="_blank">Entropy là thuật ngữ thuộc Nhiệt động lực học, là thước đo của sự biến đổi, hỗn loạn hoặc ngẫu nhiên. Năm 1948, Shannon đã mở rộng khái niệm Entropy thanh lịch lĩnh vực nghiên cứu, thống kê với công thức như sau:

Với một phân phối xác suất của một biến rời rạcxgồm thể nhậnngiá chỉ trị khác nhaux1,x2,…,xn.

Giả sử rằng xác suất đểxnhận những giá chỉ trị này làpi=p(x=xi).

Ký hiệu phân phối này làp=(p1 ,p2 ,…,pn). Entropy trong học máy và lý thuyết đọc tin nói phổ biến là thước đo tính ngẫu nhiên của thông báo đang được xử lý. Entropy càng tốt, càng nặng nề đúc kết bất kỳ kết luận nào từ báo cáo đó. Tung một đồng xu là một ví dụ về đọc tin ngẫu nhiên, trong trường hợp này Entropy đạt cực đại bằng 1, không có kết luận như thế nào góp dự đoán được kết quả tung đồng xu.


" target="_blank">Entropy của phân phối này được định nghĩa là:

H(p)= – ∑nn=1 pi log(pi)

Giả sử bạn tung một đồng xu, Entropy trong học thiết bị cùng lý thuyết thông tin nói thông thường là thước đo tính ngẫu nhiên của lên tiếng đang được xử lý. Entropy càng cao, càng nặng nề đúc kết bất kỳ kết luận làm sao từ biết tin đó. Tung một đồng xu là một ví dụ về công bố ngẫu nhiên, vào trường hợp này Entropy đạt cực đại bằng 1, không tồn tại kết luận như thế nào giúp dự đoán thù được kết quả tung đồng xu.


" target="_blank">entropy sẽ được tính như sau:

H = -<0.5 ln(0.5) + 0.5 ln(0.5)>


Hàm Entropy

Hình vẽ bên trên biểu diễn sự cố gắng đổi của hàm Entropy vào học máy với lý thuyết thông báo nói tầm thường là thước đo tính ngẫu nhiên của biết tin đang được xử lý. Entropy càng cao, càng khó đúc kết bất kỳ kết luận như thế nào từ công bố đó. Tung một đồng xu là một ví dụ về đọc tin ngẫu nhiên, vào trường hợp này Entropy đạt cực đại bằng 1, không tồn tại kết luận làm sao giúp dự đân oán được kết quả tung đồng xu.

Xem thêm: Khám Phá Top 6 Webgame Nhập Vai Hay Nhất 2021, Top Các Trang Web Game Hay Nhất 2020 Tổng Hợp


" target="_blank">entropy. Ta có thể thấy rằng, entropy đạt tối đa khi xác suất xảy ra của nhì lớp bằng nhau.P. tinc khiết: pi = 0 hoặc pi = 1 Information Gain vào Cây quyết định (Decision Tree)

Information Gain dựa bên trên sự giảm của hàm Entropy trong học trang bị và lý thuyết thông báo nói thông thường là thước đo tính ngẫu nhiên của biết tin đang được xử lý. Entropy càng tốt, càng khó khăn rút ra bất kỳ kết luận như thế nào từ ban bố đó. Tung một đồng xu là một ví dụ về đọc tin ngẫu nhiên, trong trường hợp này Entropy đạt cực đại bằng 1, không có kết luận làm sao góp dự đoán thù được kết quả tung đồng xu.


" target="_blank">Entropy khi tập dữ liệu được phân loại bên trên một thuộc tính. Để xây dựng một cây quyết định, ta phải tra cứu tất cả thuộc tính trả về Infomation gain cao nhất.

Để xác định những nút ít vào quy mô cây quyết định, ta thực hiện tính Infomation Gain tại mỗi nút ít theo trình tự sau:

Bước 1: Tính tân oán hệ số Entropy trong học thứ với lý thuyết đọc tin nói phổ biến là thước đo tính ngẫu nhiên của thông tin đang được xử lý. Entropy càng cao, càng cực nhọc rút ra bất kỳ kết luận nào từ biết tin đó. Tung một đồng xu là một ví dụ về lên tiếng ngẫu nhiên, trong trường hợp này Entropy đạt cực đại bằng 1, không tồn tại kết luận nào góp dự đân oán được kết quả tung đồng xu.


" target="_blank">Entropy của biến mục tiêu S có N phần tử với Nc phần tử thuộc lớp c mang lại trước:

H(S)= – ∑cc=1 (Nc/N) log(Nc/N)

Bước 2: Tính hàm số Entropy trong học trang bị với lý thuyết biết tin nói phổ biến là thước đo tính ngẫu nhiên của lên tiếng đang được xử lý. Entropy càng cao, càng khó khăn đúc kết bất kỳ kết luận nào từ biết tin đó. Tung một đồng xu là một ví dụ về đọc tin ngẫu nhiên, vào trường hợp này Entropy đạt cực đại bằng 1, không tồn tại kết luận làm sao giúp dự đoán được kết quả tung đồng xu.


" target="_blank">Entropy tại mỗi thuộc tính: với thuộc tính x, các điểm dữ liệu vào S được chia nhỏ ra K child node S1, S2, …, SK với số điểm trong mỗi child node lần lượt là m1, mét vuông ,…, mK , ta có:

H(x, S) = ∑Kk=1 (mk / N) * H(Sk )

Bước 3: Chỉ số Gain Information được tính bằng:

G(x, S) = H(S) – H(x,S)

Với ví dụ 2 trên, ta tính được hệ số Entropy trong học thiết bị cùng lý thuyết công bố nói phổ biến là thước đo tính ngẫu nhiên của thông báo đang được xử lý. Entropy càng tốt, càng nặng nề đúc rút bất kỳ kết luận làm sao từ lên tiếng đó. Tung một đồng xu là một ví dụ về ban bố ngẫu nhiên, vào trường hợp này Entropy đạt cực đại bằng 1, không có kết luận nào giúp dự đoán thù được kết quả tung đồng xu.


" target="_blank">Entropy như sau:

Entropy trong học thiết bị và lý thuyết đọc tin nói tầm thường là thước đo tính ngẫu nhiên của thông báo đang được xử lý. Entropy càng cao, càng cạnh tranh đúc kết bất kỳ kết luận nào từ biết tin đó. Tung một đồng xu là một ví dụ về ban bố ngẫu nhiên, vào trường hợp này Entropy đạt cực đại bằng 1, không có kết luận như thế nào góp dự đân oán được kết quả tung đồng xu.


" target="_blank">EntropyParent= -(0.57*ln(0.57) + 0.43*ln(0.43))
= 0.68

Hệ số Entropy vào học sản phẩm cùng lý thuyết thông báo nói tầm thường là thước đo tính ngẫu nhiên của báo cáo đang được xử lý. Entropy càng tốt, càng khó đúc kết bất kỳ kết luận làm sao từ biết tin đó. Tung một đồng xu là một ví dụ về báo cáo ngẫu nhiên, vào trường hợp này Entropy đạt cực đại bằng 1, không tồn tại kết luận nào giúp dự đoán được kết quả tung đồng xu.


" target="_blank">Entropy theo phương pháp phân tách thứ nhất:

Entropy trong học trang bị với lý thuyết công bố nói chung là thước đo tính ngẫu nhiên của báo cáo đang được xử lý. Entropy càng tốt, càng khó rút ra bất kỳ kết luận làm sao từ biết tin đó. Tung một đồng xu là một ví dụ về ban bố ngẫu nhiên, vào trường hợp này Entropy đạt cực đại bằng 1, không tồn tại kết luận nào góp dự đoán thù được kết quả tung đồng xu.


" target="_blank">Entropyleft= -(.75*ln(0.75) + 0.25*ln(0.25)) = 0.56Entropyright= -(.33*ln(0.33) + 0.67*ln(0.67)) = 0.63

Ta bao gồm thể tính hệ số Information Gain như sau:

Information Gain = 0.68 – (4*0.56 + 3*0.63)/7 = 0.09

Hệ số Entropy trong học thứ cùng lý thuyết báo cáo nói tầm thường là thước đo tính ngẫu nhiên của công bố đang được xử lý. Entropy càng tốt, càng khó rút ra bất kỳ kết luận như thế nào từ công bố đó. Tung một đồng xu là một ví dụ về thông báo ngẫu nhiên, vào trường hợp này Entropy đạt cực đại bằng 1, không có kết luận làm sao góp dự đoán thù được kết quả tung đồng xu.


" target="_blank">Entropy với phương pháp phân chia thứ hai như sau:

Entropy trong học máy với lý thuyết công bố nói phổ biến là thước đo tính ngẫu nhiên của công bố đang được xử lý. Entropy càng tốt, càng cạnh tranh đúc rút bất kỳ kết luận như thế nào từ ban bố đó. Tung một đồng xu là một ví dụ về ban bố ngẫu nhiên, vào trường hợp này Entropy đạt cực đại bằng 1, không tồn tại kết luận như thế nào giúp dự đoán thù được kết quả tung đồng xu.


" target="_blank">Entropyleft= -(.67*ln(0.67) + 0.33*ln(0.33)) = 0.63Entropymiddle= -(.5*ln(0.5) + 0.5*ln(0.5)) = 0.69Entropyright= -(.5*ln(0.5) + 0.5*ln(0.5)) = 0.69

Hệ số Information Gain:

Information Gain = 0.68 – (3*0.63 + 2*0.69 + 2*0.69)/7= 0.02

So sánh kết quả, ta thấy nếu phân tách theo phương pháp 1 thì ta được giá bán trị hệ số Information Gain lớn hơn gấp 4 lần so với phương pháp 2. Như vậy, giá chỉ trị đọc tin ta thu được theo phương pháp 1 cũng nhiều hơn phương pháp 2.

Thuật toán thù C4.5

Thuật tân oán C4.5 là thuật tân oán cải tiến của ID3.

Trong thuật tân oán ID3, Information Gain được sử dụng làm cho độ đo. Tuy nhiên, phương pháp này lại ưu tiên những thuộc tính tất cả số lượng lớn những giá trị mà không nhiều xét tới những giá bán trị nhỏ hơn. Do vậy, để khắc phục nhược điểm trên, ta sử dụng độ đo Gain Ratio (trong thuật toán thù C4.5) như sau:

Đầu tiên, ta chuẩn hoá information gain với trị thông báo phân tách bóc (split information):


*
*
*

Giả sử họ phân loại biến thành n nút ít cón cùng Di đại diện mang lại số lượng bản ghi thuộc nút ít đó. Do đó, hệ số Gain Ratio sẽ chăm chú được xu hướng phân phối lúc phân tách cây.

Áp dụng mang lại ví dụ trên với với giải pháp chia thứ nhất, ta có

Split Info = – ((4/7)*log2(4/7)) – ((3/7)*log2(3/7)) = 0.98

Gain Ratio = 0.09/0.98 = 0.092

Tiêu chuẩn dừng

Trong các thuật toán thù Trong lý thuyết quyết định, một cây quyết định là một đồ thị của những quyết định với những kết quả gồm thể tất cả của nó. Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu ước ao muốn, hỗ trợ quy trình ra quyết định.


" target="_blank">Decision tree, với phương pháp phân chia trên, ta sẽ phân chia mãi các node nếu nó chưa tinh khiết. Như vậy, ta sẽ thu được một tree cơ mà mọi điểm vào tập huấn luyện đều được dự đoán thù đúng (giả sử rằng không có nhì input đầu vào giống nhau như thế nào đến output không giống nhau). Lúc đó, cây bao gồm thể sẽ rất phức tạp (nhiều node) với nhiều leaf node chỉ bao gồm một vài điểm dữ liệu. Như vậy, nhiều khả năng overfitting sẽ xảy ra.

Để tránh trường họp này, ta bao gồm thể dừng cây theo một số phương pháp sau đây:

nếu tổng số leaf node vượt vượt một ngưỡng làm sao đó.

Ngoài ra, ta còn có phương pháp cắt tỉa cây.

Xem thêm: Cách Xóa Gạch Đỏ Trong Word 2010, 2007 Và 2003 Đơn GiảN, Cách Xóa Bỏ Gạch Chân Xanh, Đỏ Trong Word 2010

Một số thuật toán khác

Ngoài ID3, C4.5, ta còn một số thuật toán thù khác như:

Thuật tân oán CHAID: tạo cây quyết định bằng cách sử dụng thống kê chi-square để xác định những phân tách tối ưu. Các biến mục tiêu đầu vào tất cả thể là số (liên tục) hoặc phân loại. Thuật toán thù C&R: sử dụng phân vùng đệ quy để chia cây. Tmê man biến mục tiêu có thể dạng số hoặc phân loại. MARSConditional Inference Trees

Ưu/nhược điểm của thuật toán cây quyết định

Ưu điểm

Cây quyết định là một thuật toán đơn giản với phổ biến. Thuật toán này được sử dụng rộng rãi bới những lợi ích của nó:

Mô hình sinh ra những quy tắc dễ hiểu mang đến người đọc, tạo ra bộ luật với mỗi nhánh lá là một luật của cây. Dữ liệu đầu vào có thể tà tà dữ liệu missing, không cần chuẩn hóa hoặc tạo biến giả Có thể có tác dụng việc với cả dữ liệu số với dữ liệu phân loại Có thể xác thực quy mô bằng phương pháp sử dụng các kiểm tra thống kê Có khả năng là việc với dữ liệu lớn

Nhược điểm

Kèm với đó, cây quyết định cũng bao gồm những nhược điểm cụ thể:

Mô hình cây quyết định phụ thuộc rất lớn vào dữ liệu của bạn. Thạm chí, với một sự ráng đổi nhỏ vào bộ dữ liệu, cấu trúc mô hình cây quyết định gồm thể rứa đổi trọn vẹn.

Cài đặt cây quyết định với sklearn



Bạn muốn trích dẫn bài này:-----
Copy






Chuyên mục: Công nghệ