Kinh nghiệm và thành công tại fellowship.ai

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News VN Kinh nghiệm và thành công tại fellowship.ai

Kinh nghiệm và thành công tại fellowship.ai

Mục lục

Lời giới thiệu
Học vấn và kinh nghiệm
Lý do tham gia fellowship.ai
Quá trình xử lý dữ liệu
Cấu hình và huấn luyện mô hình
Kết quả đánh giá và mô hình hóa
Kết luận

Giới thiệu về bản thân

Xin chào, tôi là William Han, một phần của chương trình fellowship.ai thuộc khóa đào tạo số 25. Tôi muốn giới thiệu về bản thân một cách nhanh gọn. Tôi tốt nghiệp Đại học California Irvine vào tháng 6 vừa qua với bằng cử nhân tâm lý học và bắt đầu học lập trình từ tháng 9 năm 2021. Từ đó đến nay, đã gần 1 năm trôi qua và tôi đã có cơ hội khám phá nhiều lĩnh vực khác nhau trong khoa học máy tính. Do tự học nên tôi đã tìm hiểu và thực hiện nhiều dự án, trong đó lĩnh vực thú vị nhất đối với tôi là học máy (machine learning). Từ đó, tôi đã tham gia vào nhiều dự án nghiên cứu và muốn tham gia fellowship.ai để có thêm cơ hội làm quen với học máy định hướng công nghiệp hơn và tập trung vào ứng dụng thực tế của học máy. Dù tôi có kinh nghiệm trong lĩnh vực này thông qua việc làm thực tập sinh máy học tại một start-up trong mùa hè trước đó, tôi muốn sử dụng fellowship.ai như một nguồn tài nguyên để được làm việc trong một môi trường trong đó mọi người đều tập trung vào học máy công nghiệp. Điều này sẽ cho tôi một trải nghiệm rất hữu ích và tôi rất háo hức để làm việc với những người khác nhau để phát triển các thuật toán học máy có thể ổn định trong thế giới thực.

Quá trình xử lý dữ liệu

Trước tiên, tôi muốn chia sẻ quá trình xử lý dữ liệu mà tôi đã thực hiện để chuẩn bị cho việc huấn luyện mô hình. Trong một tệp notebook Jupiter, tôi đã trực quan hóa các bài đánh giá để xem cần các kỹ thuật tiền xử lý dữ liệu nào. Tôi nhận thấy rằng các bài đánh giá thực tế là những chuỗi HTML, do đó tôi sử dụng thư viện Beautiful Soup để tách chuỗi HTML và lấy văn bản thuần khiết từ đó. Tiếp theo, tôi đã loại bỏ tất cả các ký tự không cần thiết và chuyển đổi văn bản thành chữ thường để tạo ra một tập dữ liệu trong định dạng đã xử lý. Tôi đã chia tập dữ liệu thành tỉ lệ 70-15-15 để phục vụ cho việc huấn luyện, đánh giá và kiểm tra mô hình. Đồng thời, tôi cũng đã biến đổi nhãn thành dạng nhị phân để mô hình có thể đọc được. Đây là một số cấu hình cho quá trình huấn luyện: độ dài tối đa của mỗi chuỗi TOKEN là 100 để đảm bảo mô hình tập trung vào các đặc điểm chứ không phải các TOKEN thêm vào để đồng nhất độ dài. Tôi cũng sử dụng tỷ lệ học tập và suy giảm trọng lượng là 0.00041, đây là các giá trị tiêu chuẩn mà nhiều người thường sử dụng cho các tham số này. Tuy nhiên, luôn có cơ hội để tùy chỉnh các giá trị này để tìm ra tỷ lệ học tập và tốc độ suy giảm trọng lượng tốt nhất cho mô hình. Mô hình mà tôi sử dụng dựa trên pre-trained deep-bird model, một mô hình đặc biệt được tối ưu hóa cho phân loại văn bản. Tôi đã sử dụng phiên bản được huấn luyện sẵn của mô hình này, đồng thời triển khai các hàm kích hoạt như hàm softmax để đạt được xác suất thay vì các kết quả đăng nhập của mô hình. Bạn cũng có thể thấy rằng tôi đã tạo ra một ma trận nhầm lẫn để đánh giá mô hình dựa trên nhãn và xác định độ chính xác, độ nhận diện và F1-score. Tổng quan, mô hình đạt được kết quả rất tốt trong việc phân loại văn bản khi nhìn vào đồ thị học tập và ma trận nhầm lẫn.

Kết luận

Trên đây là quá trình tôi đã trải qua và kết quả mà tôi đạt được trong cuộc thử nghiệm NLB. Tôi rất hài lòng với kết quả và lợi ích mà tôi nhận được khi tham gia fellowship.ai. Đây là một trải nghiệm đáng giá và tôi hy vọng có thể tiếp tục nghiên cứu và phát triển các thuật toán học máy trong thực tế công nghiệp. Tôi đã học được rất nhiều từ việc làm việc cùng các chuyên gia và nhóm nghiên cứu tại đây và tôi rất biết ơn vì điều đó.

Kinh nghiệm và thành công tại fellowship.ai

Kinh nghiệm và thành công tại fellowship.ai

Giới thiệu về bản thân

Quá trình xử lý dữ liệu

Kết luận

Most people like