Lý thuyết Tin 12 Bài 1: Giới thiệu về học máy - Cánh diều
Haylamdo biên soạn tóm tắt lý thuyết Tin học 12 Bài 1: Giới thiệu về học máy sách Cánh diều hay nhất, ngắn gọn sẽ giúp học sinh lớp 12 nắm vững kiến thức trọng tâm, ôn luyện để học tốt môn Tin 12.
Lý thuyết Tin 12 Bài 1: Giới thiệu về học máy - Cánh diều
1. Khái niệm về học máy:
- Học máy là nhánh của trí tuệ nhân tạo (AI) giúp máy tính học từ dữ liệu để tự động phát hiện mối quan hệ trong dữ liệu.
- Bài toán phân loại và bài toán phân cụm là hai ví dụ tiêu biểu trong Học máy.
- Máy tính được huấn luyện bằng cách sử dụng dữ liệu huấn luyện để thực hiện các nhiệm vụ trên dữ liệu mới. Dữ liệu huấn luyện mô tả các đối tượng trong thế giới thực, mỗi đối tượng tương ứng với một mẫu dữ liệu.
a) Mô hình học máy:
Tóm tắt:
- Thuật toán học máy phân tích dữ liệu đầu vào để rút ra các thông tin và đặc điểm quan trọng, giúp máy tính phân biệt giữa các mẫu dữ liệu hoặc nhóm các mẫu tương tự.
- Mô hình học máy được tạo ra từ thuật toán học máy và được huấn luyện bằng dữ liệu huấn luyện. Mô hình này được đánh giá bằng dữ liệu chưa dùng trong huấn luyện để xác định hiệu quả và đáp ứng yêu cầu ứng dụng trước khi đưa vào sử dụng thực tế.
b) Quy trình học máy:
1. Thu thập dữ liệu: Lựa chọn dữ liệu phù hợp từ nhiều nguồn khác nhau, có thể là dữ liệu có cấu trúc hoặc phi cấu trúc. Dữ liệu thu thập là thô và cần chuẩn bị trước khi huấn luyện.
2.Chuẩn bị dữ liệu: Làm sạch, loại bỏ nhiễu, bổ sung giá trị thiếu, và chuyển đổi dữ liệu sang định dạng phù hợp. Chia dữ liệu thành hai phần: một phần để huấn luyện và phần còn lại để đánh giá mô hình.
3.Xây dựng mô hình: Chọn thuật toán học máy phù hợp (như hồi quy tuyến tính, cây quyết định, mạng nơron) và huấn luyện mô hình với dữ liệu.
4.Đánh giá mô hình: Áp dụng mô hình cho dữ liệu đánh giá, so sánh kết quả với tiêu chí đánh giá để xác định hiệu quả. Có thể phải điều chỉnh mô hình để cải thiện kết quả.
5. Triển khai ứng dụng mô hình**: Sử dụng mô hình đã huấn luyện vào các bài toán thực tế.
Học máy có thể chia thành hai loại chính: học có giám sát và học không giám sát.
2. Học có giám sát:
- Tập dữ liệu huấn luyện: Gồm các mẫu dữ liệu được gán với nhãn đầu ra tương ứng.
- Quá trình học: Máy tính học cách phát hiện mối quan hệ giữa các mẫu dữ liệu và nhãn.
- Dự đoán: Sau khi học, máy tính có thể dự đoán nhãn cho dữ liệu mới.
Ứng dụng: Được sử dụng để giải quyết nhiều bài toán, bao gồm bài toán phân loại.
a) Bài toán phân loại:
Bài toán phân loại: Gán nhãn cho đối tượng dựa trên các thuộc tính đặc trưng.
-Bài toán 1: Phân loại với hai nhãn "spam" và "no spam".
-Bài toán 2: Phân loại với ba nhãn "tốt", "bình thường", và "xấu".
Ứng dụng:
- Xây dựng mô hình phân loại để phân loại thư rác hoặc khách hàng vay tín dụng.
- Ví dụ: Mô hình phân loại thư rác gán nhãn "spam" hoặc "no spam" cho các email dựa trên các thuộc tính đặc trưng của chúng.
Hình 3: Minh hoạ vai trò của học máy trong phân loại thư rác với các biểu tượng email thể hiện thư có hoặc không có thuộc tính của thư rác.
b) Dữ liệu huấn luyện:
Phân loại và thuộc tính đặc trưng:
- Mô tả đối tượng: Được phân loại dựa trên các thuộc tính đặc trưng.- Ví dụ phân loại email:
- Thuộc tính đặc trưng: Địa chỉ người gửi, địa chỉ người nhận, dòng tiêu đề, từ ngữ đặc trưng cho thư rác.
- Dữ liệu huấn luyện: Bao gồm các email đã được gán nhãn là "thư rác" hoặc "không phải thư rác" để huấn luyện mô hình phân loại.
c) Huấn luyện và đánh giá mô hình:
Quá trình huấn luyện và đánh giá mô hình phân loại:
- Huấn luyện máy tính: Sử dụng dữ liệu huấn luyện để dự đoán nhãn phân loại theo thuật toán học máy.
- Dự đoán nhãn: Dựa trên giá trị các thuộc tính đặc trưng của đối tượng.
- Đánh giá mô hình: Áp dụng mô hình lên dữ liệu kiểm tra, so sánh nhãn dự đoán với nhãn đã biết.
- Mục tiêu: Giảm thiểu tỷ lệ nhãn bị gán sai đến mức chấp nhận được.
3. Học không giám sát:
- Tập dữ liệu: Không có nhãn.
- Ứng dụng: Giải quyết nhiều bài toán khác nhau, bao gồm bài toán phân cụm.
a) Bài toán phân cụm:
- Khái niệm: Chia tập đối tượng thành các cụm dựa trên sự tương tự và khác biệt.
- Đặc điểm: Các đối tượng trong cùng một cụm có đặc điểm tương tự nhau, còn các cụm khác có đặc điểm khác nhau.
- Ứng dụng: Học không giám sát giúp xây dựng mô hình phân cụm, ví dụ như phân cụm các loại quả dựa trên đặc điểm của chúng.
b) Dữ liệu huấn luyện:
Dữ liệu huấn luyện trong phân cụm:
- Tập dữ liệu: Bao gồm các mẫu dữ liệu mô tả thuộc tính đặc trưng của đối tượng (ví dụ: hình dạng, kích thước, màu sắc của quả).
- Đặc điểm: Không có nhãn kèm theo; chỉ có các thuộc tính đặc trưng để phân cụm.
c) Huấn luyện và đánh giá mô hình:
Huấn luyện và đánh giá mô hình phân cụm:
- Huấn luyện: Dựa trên thông tin về sự tương tự của các mẫu dữ liệu, thuật toán nhóm các mẫu thành các cụm. Các phương pháp phân cụm có thể dựa trên mật độ dữ liệu, phân phối xác suất, hoặc khoảng cách giữa các mẫu dữ liệu và tâm cụm.
- Đánh giá: Không có nhãn để kiểm tra tính chính xác. Kết quả phân cụm được đánh giá dựa trên tính chất của dữ liệu và yêu cầu phân tích dữ liệu.
4. Một số ứng dụng của Học máy:
a) Nhận dạng tiếng nói:
- Ứng dụng: Chuyển lời nói thành văn bản, tìm kiếm bằng lời nói, điều khiển thiết bị thông minh bằng lời nói, dịch vụ trả lời tự động, chatbot trợ lý ảo, xác thực sinh trắc học tiếng nói.
- Ví dụ: Ứng dụng Google Dịch chuyển đổi tiếng nói thành văn bản.
b) Nhận dạng chữ viết:
- Ứng dụng: Chuyển đổi chữ viết tay thành văn bản.
- Chế độ:
+ Tĩnh (Offline): Hình ảnh chữ viết tay được thu nhận và phân tích sau.
+ Động (Online): Chữ viết được thu nhận và phân tích cùng lúc với thao tác viết, áp dụng cho xác thực sinh trắc học chữ ký.
c) Dịch máy:
- Ứng dụng: Dự đoán từ hoặc cụm từ tương ứng trong ngôn ngữ đích từ ngôn ngữ nguồn.
- Ví dụ: Google Dịch cho phép dịch văn bản, nhận dạng chữ viết tay, và tiếng nói. Cung cấp các tính năng như phiên dịch trực tiếp qua camera, dịch email, và trợ lý ảo Google Assistant hỗ trợ trò chuyện đa ngôn ngữ.
d) Chẩn đoán bệnh:
- Ứng dụng: Phân tích triệu chứng và kết quả xét nghiệm để dự đoán bệnh. Học máy giúp bác sĩ chẩn đoán nhanh và chính xác hơn.
e) Phân tích thị trường:
- Ứng dụng: Phân cụm dữ liệu khách hàng theo các thuộc tính như giới tính, độ tuổi, nhu cầu tiêu dùng. Kết quả giúp doanh nghiệp xây dựng chiến lược tiếp thị hiệu quả, tăng doanh số và nâng cao hiệu quả kinh doanh.