Lý thuyết Tin 12 Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức - Kết nối tri thức
Haylamdo biên soạn tóm tắt lý thuyết Tin học 12 Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức sách Kết nối tri thức hay nhất, ngắn gọn sẽ giúp học sinh lớp 12 nắm vững kiến thức trọng tâm, ôn luyện để học tốt môn Tin 12.
Lý thuyết Tin 12 Bài 28: Thực hành trải nghiệm trích rút thông tin và tri thức - Kết nối tri thức
Nhiệm vụ chung: Thực hiện một số bước xử lí và phân tích dữ liệu đơn giản :
Yêu cầu: Phân tích mối quan hệ giữa các nhóm khách hàng với xếp hạng khả năng tín dụng.
Dữ liệu xếp hạng khả năng tín dụng khách hàng từ một đơn vị cho vay tài chính, được trích từ Kaggle, bao gồm các cột:
- Mã định danh
- Số tuổi
- Thu nhập năm (tính theo USD)
- Khả năng tín dụng
Quy trình xử lý và phân tích dữ liệu:
1. ửng dụng Excel Data Analysis (Microsoft Office 365):
- Thực hiện các thao tác xử lý và phân tích dữ liệu.
- Trích rút thông tin và tri thức hữu ích từ dữ liệu.
Mục đích:
- Hướng dẫn các thao tác cơ bản trong xử lý và phân tích dữ liệu.
- Giúp người học trải nghiệm việc trích rút thông tin và tri thức từ dữ liệu tín dụng.
Nhiệm vụ 1: Chuẩn bị dữ liệu với Power Query
Yêu cầu: Bổ sung phân loại dữ liệu từ dữ liệu đã có.
Hướng dẫn:
- Chuẩn bị dữ liệu là một giai đoạn mất nhiều thời gian và công sức nhất trong quy trình khoa học dữ liệu.
- Trong nhiệm vụ này, chúng ta sẽ bổ sung thêm cột mới trong bảng dữ liệu đã có.
Thay đổi các cột dữ liệu:
- Quyết định cột nào cần thêm vào, cột nào cần bỏ đi, cần được cân nhắc kỹ lưỡng trước khi bắt đầu giai đoạn Chuẩn bị dữ liệu.
- Dựa trên yêu cầu phân tích dữ liệu, bổ sung các cột phù hợp.
a) Tải dữ liệu vào Power Query
Bước 1. Tải dữ liệu từ trang hanhtrangso.nxbgd.vn và lưu với tên VD_KHDL.
Bước 2. Mở tệp VD_KHDL trong Excel.
Bước 3. Chọn vùng dữ liệu muốn xử lí: chọn Data → Get Data → From Table/ Range hoặc Data → From Table tuỳ theo phiên bản Excel trên từng máy tính cụ thể.
b) Tiễn xử lí dữ liệu
Bước 1. Tạo cột Mức thu nhập từ cột Thu nhập năm:
• Trên thanh công cụ, chọn Add Column → Conditional Column (Hình 28.2).
• Phân mức thu nhập thành các nhóm: Thấp: <= $25 000; Trung bình: ($25 000 – 50 000]; Khá: ($50 000 – 75 000]; Cao: >= $75 000. Nhấn OK để hoàn thành việc phân mức (Hình 28.3).
Bước 2. Thực hiện các thao tác tương tự Bước 1 đối với cột Số tuổi để tạo cột Nhóm tuổi: < 21; 21 - 30; 31 - 40; 41 - 50; > 50.
Kết quả nhận được là bảng dữ liệu như Hình 28.4.
Bước 3. Lưu dữ liệu đã qua tiền xử lí:
- Trên thanh công cụ, chọn Home và sau đó chọn Close & Load to hoặc Close & Load, tùy theo cài đặt cụ thể của phiên bản Excel mà bạn đang sử dụng.
- Dữ liệu sau khi được xử lý sẽ được lưu vào một Sheet mới. Bạn có thể đổi tên Sheet này, ví dụ thành “Done Query” để dễ nhớ và sử dụng sau này.
Bước 4. Đổi tên bảng dữ liệu đã qua xử lý:
- Để thuận tiện cho việc lập bảng tổng hợp bằng PivotTable, bạn có thể đổi tên bảng dữ liệu đã qua xử lý thành “Processed_Data”.
- Thực hiện như sau:
1. Nhấp chuột vào ô bất kỳ trong bảng dữ liệu đã qua tiền xử lý.
2. Trên thanh công cụ, chọn Table Design.
3. Di chuyển chuột đến Table Name và đổi tên bảng theo yêu cầu (Hình 28.5).
Lưu ý: Sau khi đã lưu kết quả tiền xử lí dữ liệu, nếu muốn tiếp tục thực hiện thêm những thao tác khác với các cột dữ liệu, thì chỉ cần hiện bảng chọn như Hình 28.5, chọn Query → Edit.
c) Tạo trình tự sắp xếp dữ liệu mong muốn
Cột Khả Năng Tín Dụng có ba hạng mục: Kém, Trung Bình, Tốt. Theo trình tự mặc định của bảng chữ cái, khi sắp xếp, dữ liệu cột này sẽ được xếp theo thứ tự Kém – Tốt – Trung bình. Để thay đổi trình tự sắp xếp dữ liệu này theo mong muốn, ví dụ theo trình tự Kém – Trung bình – Tốt, ta cần thực hiện các bước sau:
Bước 1.File → Options → Advanced
Bước 2. Di chuột xuống mục General Custom Lists
→>> Edit
Bước 3. Tạo danh sách mới: NEW LIST → Add (xem Hình 28.6).
Làm tương tự bước trên với cột Nhóm tuổi và cột Mức thu nhập để bổ sung các danh sách sắp xếp thứ tự tương ứng: < 21, 21 – 30, 31 – 40, 41 – 50, > 50 và Cao, Khá, Trung bình, Thấp.
Nhiệm vụ 2: Tổng hợp dữ liệu bằng PivotTable
Yêu cầu: Tổng hợp Khả năng tín dụng theo Mức thu nhập.
Hướng dẫn: Sử dụng PivotTable (Bảng tổng hợp) trong Excel để tổng hợp dữ liệu.
a) Khởi tạo bảng PivotTable
Bước 1: Nhấn chuột vào ô bất kì trong bảng Processed_Data đã qua tiền xử lí.
Bước 2: Trên thanh công cụ, chọn Insert → PivotTable:
- Chọn New Worksheet.
- Nhấn OK.
b) Tạo bảng tổng hợp Khả năng tín dụng theo Mức thu nhập
Bước 1: Tạo bảng tổng hợp để tính số lượng mỗi hạng mức tín dụng theo từng nhóm thu nhập bằng cách kéo thả các cột vào các vùng Columns, Rows và Values tương ứng. Trong đó, Rows là tiêu chí được sử dụng để tổng hợp dữ liệu có trong Columns.
Bước 2: Thực hiện việc kéo thả các cột dữ liệu vào các vùng Columns, Rows và Values tương ứng và quan sát sự thay đổi kết quả trên màn hình để chọn bảng tổng hợp phù hợp với mong muốn. Ví dụ như Hình 28.8, trong đó Grand Total là kết quả tổng cộng theo hàng/cột dữ liệu tương ứng.
c) Điều chỉnh việc hiển thị kết quả thống kê
Nhận xét: Có thể thấy, số lượng khách hàng ở mỗi nhóm thu nhập có sự khác biệt quá lớn, việc so sánh các giá trị này giữa các mức tín dụng với nhau không hợp lí. Vì vậy, ta sẽ điều chỉnh bảng tổng hợp trong Hình 28.8 để tính toán tỉ lệ phần trăm tương ứng thay cho số lượng khách hàng tuyệt đối.
Bước 1: Nháy nút phải chuột vào bảng PivotTable đã tạo ra (Hình 28.8).
Bước 2: Trong thực đơn đổ xuống, chọn Show Values As → % of Row Total để nhận được bảng tổng hợp mới.
Nhiệm vụ 3: Tạo biểu đồ trực quan hóa dữ liệu
Yêu cầu: Tạo biểu đồ mô tả dữ liệu tổng hợp do PivotTable tạo ra.
*Hướng dẫn: Sử dụng PivotChart trong Excel, một công cụ liên kết với PivotTable, để thực hiện nhiệm vụ này.
Tạo biểu đồ tổng hợp khả năng tín dụng theo nhóm thu nhập:
Bước 1: Nháy chuột vào vị trí bất kỳ trong bảng tổng hợp do PivotTable tạo ra
Bước 2: Trên thanh công cụ, chọn Insert → PivotChart → Column → OK. Ta nhận được biểu diễn dữ liệu nêu trên bằng biểu đồ cột (xem Hình 28.10).
Lưu ý: Hình 28.10 là biểu đồ kết quả được bổ sung thêm nhãn dữ liệu, tên các mức thu nhập, tiêu đề cột ở mỗi trục biểu đồ,... để dễ dàng đọc số liệu qua biểu đồ. Việc bổ sung này được thực hiện tương tự như khi lập biểu đồ trong Excel.
Nhiệm vụ 4: Phân tích kết quả tổng hợp dữ liệu
Yêu cầu: Quan sát kết quả tổng hợp và biểu diễn dữ liệu để rút ra các kết luận về tính chất/mối quan hệ/xu hướng dữ liệu (nếu có) dựa trên mục tiêu phân tích dữ liệu đặt ra.
Hướng dẫn: Việc phân tích kết quả tổng hợp dữ liệu là một phần của quá trình phân tích dữ liệu. Công việc này thực chất là việc trích rút các thông tin và tri thức hữu ích có ý nghĩa để trả lời các câu hỏi xuất phát từ mục tiêu phân tích dữ liệu.
Thông qua các bước đã thực hiện trong việc chuẩn bị và phân tích dữ liệu, chúng ta có thể rút ra những kết luận quan trọng liên quan đến khả năng tín dụng của khách hàng dựa trên mức thu nhập và độ tuổi, giúp đưa ra các quyết định kinh doanh chính xác hơn. Việc sử dụng công cụ Excel Data Analysis không chỉ giúp tiết kiệm thời gian mà còn tăng tính chính xác trong phân tích và ra quyết định.
a) Trả lời câu hỏi: Khả năng tín dụng nào có xu hướng ổn định nhất trong các nhóm thu nhập?
Trả lời: Căn cứ vào bảng tổng hợp và biểu đồ tương ứng ở Hình 28.9 và Hình 28.10, khả năng tín dụng Trung bình là ổn định nhất trong tất cả các nhóm thu nhập, chiếm trên 50% tổng số khách hàng của từng nhóm.
b) Hãy cho biết:Nhóm thu nhập nào có tỉ lệ phần trăm khách hàng có khả năng tín dụng mức Tốt cao nhất?
- Trả lời: Nhóm thu nhập cao có tỉ lệ phần trăm khách hàng có khả năng tín dụng mức Tốt cao nhất.
- Nhóm thu nhập nào có tỉ lệ phần trăm khách hàng có khả năng tín dụng mức Kém cao nhất?
- Trả lời: Nhóm thu nhập thấp có tỉ lệ phần trăm khách hàng có khả năng tín dụng mức Kém cao nhất.
- Nhóm thu nhập nào có số lượng khách hàng có khả năng tín dụng Tốt gần gấp đôi số khách hàng có khả năng tín dụng Kém?
- Trả lời: Nhóm thu nhập cao có số lượng khách hàng có khả năng tín dụng Tốt gần gấp đôi số khách hàng có khả năng tín dụng Kém.
- Nhóm thu nhập nào có khả năng tín dụng mức Kém cao hơn mức Tốt?
- Trả lời: Nhóm thu nhập thấp có khả năng tín dụng mức Kém cao hơn mức Tốt.
Lưu ý: Kết quả phân tích dữ liệu có thể trở thành tiền đề cho một nghiên cứu tiếp theo. Ví dụ, trong nhóm khách hàng có mức thu nhập loại Khá, số có khả năng tín dụng mức Kém lớn gần gấp ba số có khả năng tín dụng mức Tốt – điều này có thể gợi ý cho một cuộc điều tra xã hội nhằm tìm hiểu nguyên nhân của thực tế này.