Hướng dẫn sử dụng tokenizer Llama 2
Bảng nội dung:
- Giới thiệu về Llama 2
- Tokens trong Llama 2
- Các token đặc biệt
- Token không xác định
- Token padding
- Cách sử dụng tokenizer trong Llama 2
- Tokenize câu và xem kết quả
- Thêm token đặc biệt vào dữ liệu
- Định nghĩa token padding mới
- Cập nhật tokenizer và model để sử dụng padding token
- Sử dụng mask token
- Định dạng Prompt trong Llama 2
- Cách xác định instruction và system message
- Ví dụ về prompt format
- Kết luận
- Tài liệu tham khảo
📄 Bài viết: Hướng dẫn sử dụng tokenizer trong Llama 2
Trong một vài tháng qua, Llama 2 đã xuất hiện và có rất nhiều câu hỏi xoay quanh cách tokenizer hoạt động và cách thiết lập padding cho tokenizer. Trong bài viết này, chúng ta sẽ đi qua các khái niệm cơ bản của Llama 2 và hướng dẫn cách sử dụng tokenizer. Nếu bạn muốn tìm hiểu chi tiết hơn, có thể truy cập vào GitHub repo của Trellis research hoặc sử dụng notebook Collab miễn phí đi kèm để khám phá tokenizer của Llama 2.
Tokens trong Llama 2
Trước tiên, hãy tìm hiểu về các token trong Llama 2. Llama 2 sử dụng 32.000 token, đại diện cho các từ và từ ngắn. Có một số token đặc biệt như "beginning of sequence token", "end of sequence token" và "unknown token" để chỉ ra bắt đầu và kết thúc của một chuỗi và các token không nằm trong từ điển, tương ứng. Nếu bạn muốn sử dụng Llama 2 cho fine-tuning, việc đầu tiên bạn cần làm là thiết lập padding token vì không có sẵn. Token padding cho phép bạn thêm vào các chuỗi và điều chỉnh độ dài của chúng khi cần thiết.
Cách sử dụng tokenizer trong Llama 2
Để sử dụng tokenizer trong Llama 2, bạn cần kết nối với hugging face và tải xuống mô hình Llama 2. Sau đó, bạn có thể cài đặt các gói cần thiết và tải tokenizer. Bạn có thể kiểm tra token BOS (beginning of sequence) và token EOS (end of sequence) bằng cách sử dụng tokenizer.
Sau đó, bạn có thể thực hiện quá trình tokenize cho một câu bằng cách chia câu thành các token. Bạn cũng có thể thêm các token đặc biệt vào dữ liệu của mình và điều chỉnh chuỗi padding. Khi làm việc với một mô hình fine-tuning, hãy chắc chắn thiết lập padding token để mô hình có thể xử lý tốt hơn.
Ngoài ra, bạn cũng có thể sử dụng mask token để bỏ qua một số token trong quá trình huấn luyện. Điều này hữu ích khi bạn không muốn một số token ảnh hưởng đến kết quả dự đoán của mô hình. Bạn có thể thiết lập mask token bằng cách tương tự như việc thiết lập padding token.
Định dạng prompt trong Llama 2
Llama 2 sử dụng một định dạng prompt độc đáo để tạo ra các dòng truy vấn. Định dạng này bao gồm các mini chuỗi không phải là token, nhưng giúp mô hình hiểu được bắt đầu của một tin nhắn hệ thống hoặc một hướng dẫn. Để tạo một prompt, bạn cần xác định các phần bắt đầu và kết thúc của một tin nhắn hệ thống hoặc một hướng dẫn, và sau đó đặt tin nhắn người dùng và cuối tin nhắn hướng dẫn. Điều này giúp mô hình hiểu được các phân đoạn khác nhau trong truy vấn và đưa ra câu trả lời phù hợp.
Kết luận
Trong bài viết này, chúng ta đã tìm hiểu về cách sử dụng tokenizer trong Llama 2 và định dạng prompt đặc biệt của nó. Tokenizer trong Llama 2 giúp chúng ta chia các câu thành các token và thêm các token đặc biệt vào dữ liệu. Định dạng prompt của Llama 2 giúp chia các truy vấn thành các phần để mô hình hiểu rõ hơn. Hy vọng thông tin này giúp bạn dễ dàng làm việc với Llama 2 và tận dụng tối đa tiềm năng của nó!
Tài liệu tham khảo