CÁCH HỌC KHOA HỌC DỮ LIỆU MIỄN PHÍ

February 5, 2020

CÁCH HỌC KHOA HỌC DỮ LIỆU MIỄN PHÍ

Chi phí trung bình các khóa khoa học dữ liệu được tạo ra, cho dù là trực tuyến hay ngoại tuyến, thường có giá không hề rẻ. Vậy bạn sẽ làm gì nếu muốn học khoa học dữ liệu nhưng lại không có đủ khả năng chi trả khoản học phí này?. Bài viết dưới đây sẽ chia sẻ với bạn chương trình giảng dạy của một người tự học đã thành công giúp việc học khoa học dữ liệu hoàn toàn miễn phí.

Chương trình giảng dạy sẽ bao gồm 3 phần chính: kỹ năng kỹ thuật, học thuyết và kinh nghiệm thực tế (bao gồm các liên kết đến các nguồn tài nguyên miễn phí hoặc các tùy chọn 'chi phí thấp' bổ sung nếu các bạn muốn học nhanh hơn). 

Kĩ năng công nghệ

Phần đầu tiên của chương trình giảng dạy này sẽ tập trung vào các kỹ năng công nghệ. Một lời khuyên cho bạn là nên học những điều này trước để bạn có thể có một cách tiếp cận thực tế, thay vì học lý thuyết toán học trước. Python là ngôn ngữ lập trình được sử dụng rộng rãi nhất, được sử dụng cho khoa học dữ liệu. Do đó, bạn nên tập trung vào ngôn ngữ này nhưng cũng dành một ít thời gian cho các ngôn ngữ khác như R.

 

Nguyên tắc cơ bản của Python

Trước khi bạn bắt đầu sử dụng Python cho khoa học dữ liệu, bạn cần nắm bắt sơ lược các nguyên tắc cơ bản trước. Bạn tham khảo việc học tập các khóa học giới thiệu ở trang Codeacademy bởi vì nó khá là quen thuộc. Những khóa học giới thiệu về Python bao gồm cú pháp cơ bản, chức năng, luồng điều khiển, vòng lặp, mô-đun, các lớp.

 

Phân tích dữ liệu với python

Tiếp theo, bạn sẽ muốn hiểu rõ về việc sử dụng Python để phân tích dữ liệu. Có một số nguồn tài liệu tốt cho việc này.

Để bắt đầu, bạn nên dùng ít nhất một trong các phần miễn phí của lộ trình học phân tích dữ liệu trên dataquest.io . Dataquest cung cấp các lộ trình học tập hoàn chỉnh cho nhà phân tích dữ liệu, nhà khoa học dữ liệu và kỹ sư dữ liệu. Ở đây bao gồm khá nhiều nội dung, đặc biệt là các đường dẫn phân tích dữ liệu miễn phí có sẵn. Nếu bạn có một số tiền để học, bạn có thể trả tiền cho thuê bao có phí trong vòng một vài tháng. Các khóa học có phí cung cấp một nền tảng tuyệt vời về các nguyên tắc cơ bản của khoa học dữ liệu. 

Nền tảng Dataquest

 

Python cho machine learning

Nếu bạn đã chọn trả tiền cho khóa học khoa học dữ liệu có phí trên Dataquest thì bạn sẽ nắm bắt tốt các nguyên tắc cơ bản của machine learning với Python. Hoặc nếu không thì có rất nhiều tài nguyên miễn phí khác như scikit-learn- thư viện Python được sử dụng phổ biến nhất cho máy học.

Chú thích: Machine learning là một lĩnh vực con của Trí tuệ nhân tạo(Artificial Intelligence) sử dụng các thuật toán cho phép máy tính có thể học từ dữ liệu để thực hiện các công việc thay vì được lập trình một cách rõ ràng.

SQL

SQL là một kỹ năng quan trọng nếu bạn muốn trở thành một nhà khoa học dữ liệu, vì một trong những quy trình cơ bản trong mô hình hóa dữ liệu là trích xuất dữ liệu ngay từ đầu. Nếu bạn chưa chọn tham gia khóa học Dataquest có phí đầy đủ thì SQL là một vài tài nguyên miễn phí để học kỹ năng này.

Codeacamdemy có phần giới thiệu miễn phí về khóa học SQL . Điều này rất thực tế với mã hóa trong trình duyệt suốt. Nếu bạn cũng muốn tìm hiểu về truy vấn cơ sở dữ liệu dựa trên đám mây thì Google Cloud BigQuery sẽ là một lựa chọn tốt. 

 

R

Để trở thành một nhà khoa học dữ liệu toàn diện, một ý tưởng tốt là đa dạng hóa một chút từ Python. Codeacademy có một khóa học giới thiệu về kế hoạch miễn phí. Điều đáng chú ý ở đây là tương tự như Dataquest Codeacademy cũng cung cấp một kế hoạch học tập khoa học dữ liệu hoàn chỉnh như một phần của tài khoản chuyên nghiệp tại trang của mình. Khóa học Dataquest toàn diện hơn nhiều nhưng điều này có thể rẻ hơn một chút nếu bạn đang muốn theo một lộ trình học tập trên một nền tảng duy nhất.

 

Kỹ thuật phần mềm

Điều này sẽ giúp mã của bạn dễ đọc hơn và có thể mở rộng cho cả bạn và người khác. Ngoài ra, khi bạn bắt đầu đưa các mô hình vào sản xuất, bạn sẽ cần có khả năng viết mã chất lượng tốt và làm việc với các công cụ như kiểm soát phiên bản.

Có hai nguồn tài nguyên miễn phí tuyệt vời cho việc này. Python giống như bạn có nghĩa là nó bao gồm những thứ như hướng dẫn kiểu PEP8, tài liệu và cũng bao gồm lập trình hướng đối tượng thực sự tốt.

Các hướng dẫn đóng góp của scikit-learn , mặc dù tạo điều kiện cho các đóng góp cho thư viện, nhưng thực sự bao gồm các thực tiễn tốt. Điều này bao gồm các chủ đề như Github, kiểm tra đơn vị và gỡ lỗi và tất cả được viết trong bối cảnh của một ứng dụng khoa học dữ liệu.

Học kĩ càng

Để có phần giới thiệu toàn diện về học tập sâu, bạn có thể học tập với fast.ai hoàn toàn miễn phí và hoàn toàn không có quảng cáo . Khóa học này bao gồm giới thiệu về machine learning, học sâu thực tế, đại số tuyến tính và giới thiệu đầu tiên về quy trình xử lý ngôn ngữ tự nhiên. Tất cả các khóa học của họ có một cách tiếp cận thực tế mới lạ.

 

Học thuyết

Trong khi bạn đang học các yếu tố kỹ thuật của chương trình giảng dạy, bạn sẽ gặp một số lý thuyết đằng sau mã bạn đang thực hiện. Tài liệu scikit-learn chứa tất cả các khái niệm toán học đằng sau các thuật toán mà bạn cần.

Các khan academy chứa hầu hết các khái niệm quan trọng được liệt kê dưới đây miễn phí. Bạn có thể điều chỉnh các môn học bạn muốn học khi đăng ký và bạn sẽ có một chương trình giảng dạy phù hợp. 

 

Toán học

Giải tích

Giải tích được Wikipedia định nghĩa là nghiên cứu toán học về sự thay đổi liên tục. Nói cách khác, phép tính có thể tìm thấy các mẫu giữa các hàm, ví dụ, trong trường hợp các đạo hàm, nó có thể giúp bạn hiểu cách một hàm thay đổi theo thời gian.

Nhiều thuật toán machine learning sử dụng tính toán để tối ưu hóa hiệu suất của các mô hình. Nếu bạn đã nghiên cứu một ít về machine learning, bạn có thể đã nghe nói về Gradient gốc. Hàm này được tính bằng cách điều chỉnh lặp lại các giá trị tham số của mô hình để tìm giá trị tối ưu để giảm thiểu hàm chi phí . Gradient giảm dần là một ví dụ tốt về cách tính toán được sử dụng trong machine learning.

 

Những gì bạn cần biết:

Các dẫn xuất

  • Định nghĩa hình học

  • Tính đạo hàm của hàm số

  • Hàm phi tuyến

Quy tắc chuỗi

  • Hàm tổng hợp

  • Dẫn xuất hàm tổng hợp

  • Nhiều chức năng

Sinh viên tốt nghiệp

  • Dẫn một phần

  • Dẫn xuất định hướng

  • Tích phân

 

Đại số tuyến tính

Nhiều phương pháp machine learning phổ biến, bao gồm XGBOOST, sử dụng ma trận để lưu trữ dữ liệu đầu vào và xử lý dữ liệu. Ma trận cùng với không gian vectơ và phương trình tuyến tính tạo thành nhánh toán học được gọi là Đại số tuyến tính. Để hiểu được có bao nhiêu phương pháp machine learning hoạt động, điều cần thiết là phải hiểu rõ về lĩnh vực này.

Những gì bạn cần học:

Vectơ và không gian

  • Vectơ

  • Kết hợp tuyến tính

  • Sự phụ thuộc tuyến tính và sự độc lập

  • Vector chấm và sản phẩm chéo

Biến đổi ma trận

  • Hàm và biến đổi tuyến tính

  • Phép nhân ma trận

  • Hàm nghịch đảo

  • Chuyển vị của ma trận

Số liệu thống kê

Dưới đây là danh sách các khái niệm chính bạn cần biết:

Thống kê mô tả / tóm tắt

  • Cách tóm tắt một mẫu dữ liệu

  • Các loại phân phối khác nhau

  • Skewness, kurtosis, xu hướng trung tâm (ví dụ: trung bình, trung bình, chế độ)

  • Các biện pháp phụ thuộc và mối quan hệ giữa các biến như tương quan và hiệp phương sai

Thiết kế thí nghiệm

  • Kiểm định giả thuyết

  • Lấy mẫu

  • Kiểm tra ý nghĩa

  • Ngẫu nhiên

  • Xác suất

  • Khoảng tin cậy và suy luận hai mẫu

Machine learning 

  • Suy luận về độ dốc

  • Hồi quy tuyến tính và phi tuyến tính

  • Phân loại

Kinh nghiệm thực tế

Phần thứ ba của chương trình giảng dạy tất cả là về thực hành. Để thực sự nắm vững các khái niệm trên, bạn sẽ cần sử dụng các kỹ năng trong một số dự án gần giống thế giới thực. Bằng cách này, bạn sẽ gặp phải các vấn đề cần giải quyết như dữ liệu bị thiếu hoặc sai sót và phát triển trình độ chuyên môn sâu về chủ đề này. Trong phần cuối cùng này, chúng ta sẽ cùng liệt kê một số nguồn tài nguyên tốt mà bạn có thể có được trải nghiệm thực tế miễn phí.

 

Kaggle, et al

Các cuộc thi machine learning là một nơi tốt để thực hành với việc xây dựng các mô hình machine learning. Họ cung cấp quyền truy cập vào một loạt các bộ dữ liệu, mỗi bộ có một vấn đề cụ thể để giải quyết và có bảng xếp hạng. Bảng xếp hạng là một cách tốt để đánh giá mức độ hiểu biết của bạn trong việc phát triển một mô hình thực sự tốt và nơi bạn có thể cần cải thiện hơn nữa. 

Ngoài Kaggle , còn có các nền tảng khác cho các cuộc thi học máy bao gồm Analytics Vidhya và DrivenData.

 

Kho lưu trữ máy học UCI

Các kho học máy UCI là một nguồn lớn các bộ dữ liệu công khai có sẵn. Bạn có thể sử dụng các bộ dữ liệu này để kết hợp các dự án dữ liệu của riêng mình, điều này có thể bao gồm phân tích dữ liệu và mô hình machine learning, thậm chí bạn có thể thử xây dựng mô hình đã triển khai với giao diện người dùng web. Đó là một ý tưởng tốt để lưu trữ các dự án của bạn ở một nơi nào đó công khai như Github vì điều này có thể tạo ra một danh mục đầu tư thể hiện các kỹ năng của bạn để sử dụng cho các ứng dụng công việc trong tương lai. 

 

Đóng góp cho nguồn mở

Một lựa chọn khác để xem xét là đóng góp cho các dự án nguồn mở. Có rất nhiều thư viện Python dựa vào cộng đồng để duy trì chúng và thường có các hackathon (cuộc thi phát triển phần mềm) được tổ chức tại các cuộc họp và hội nghị mà ngay cả những người mới bắt đầu cũng có thể tham gia. Tham dự một trong những sự kiện này chắc chắn sẽ cung cấp cho bạn một số kinh nghiệm thực tế và môi trường- nơi bạn có thể học hỏi những người. Numf Focus là một ví dụ điển hình của một dự án như thế này.

 

Bài viết đã mô tả một lộ trình học tập, các khóa học và hướng dẫn trực tuyến cho phép bạn học khoa học dữ liệu miễn phí. Hi vọng tất cả những lời khuyên cũng như những tài liệu có sẵn miễn phí vừa được chia sẻ sẽ giúp bạn học tập cho hiện tại và thành công trong tương lai.

Nguồn Tổng Hợp

---

JT1 - IT Recruitment Agency
Website: 
https://www.jt1.vn
Email: hi@jt1.vn
Điện thoại: +8428 6675 6685
Xem thêm các bài viết khác tại: https://www.jt1.vn/blog
Theo dõi chúng tôi tại: https://www.facebook.com/jt1asia/

Please reload

Recent Posts

Please reload

banner-top-it-job-right.gif

Archive