Phân đoạn từ trong tiếng Việt
Bảng Mục lục:
- Giới thiệu về chuẩn hóa văn bản
1.1. Quá trình chuẩn hóa văn bản
1.2. Phân đoạn từ
- Cách tiếp cận từ dựa trên dấu cách
2.1. Tiến trình phân đoạn từ dựa trên khoảng trắng
2.2. Ứng dụng các công cụ Unix để xử lý văn bản
- Quá trình xử lý từ tiếng Anh thông qua Unix TR command
3.1. Xử lý văn bản theo các quan tâm cụ thể
3.2. Xử lý từng từ trong văn bản Shakespeare
- Sắp xếp và đếm từ theo tần suất
4.1. Xếp từ theo thứ tự tăng dần
4.2. Xếp từ theo thứ tự giảm dần
- Những vấn đề gặp phải khi xử lý từ
5.1. Xử lý ký tự viết hoa
5.2. Xử lý các dạng viết tắt trong văn bản
5.3. Xử lý các dạng ký tự đặc biệt
- Phương pháp phân đoạn từ trong các ngôn ngữ không sử dụng khoảng trắng
6.1. Phân đoạn từ trong tiếng Trung Quốc
6.2. Phân đoạn từ trong các ngôn ngữ như Tiếng Thái và Tiếng Nhật
- Tiến trình chuẩn hóa văn bản thông qua quá trình phân đoạn từ
- Phương pháp phân đoạn từ dựa trên các giải thuật nâng cao
- Kết luận
Chuẩn hóa Văn bản và Quá trình Phân đoạn Từ
Trong các bài giảng tiếp theo, chúng ta sẽ giới thiệu về chuẩn hóa văn bản, quá trình biến một văn bản thành định dạng tiêu chuẩn của từ hoặc câu. Chúng ta sẽ bắt đầu bằng việc nghĩ về phân đoạn từ, việc chia một văn bản thành các phần từ đại diện cho từng từ hoặc một phần của từ.
1. Giới thiệu về chuẩn hóa văn bản
Mỗi tác vụ xử lý ngôn ngữ tự nhiên đều yêu cầu việc chuẩn hóa văn bản và chúng ta thường nghĩ đến ít nhất ba quy trình liên quan đến việc chuẩn hóa. Cụ thể là phân đoạn từ hoặc phân đoạn các từ ra. Sau đó, khi chúng ta đã phân đoạn các từ này, chúng ta muốn chuẩn hóa chúng thành một định dạng. Do đó, chúng ta có một định dạng tiêu chuẩn cho văn bản của mình và chúng ta cũng sẽ phải phân đoạn các đoạn văn bản lớn hơn, câu hoặc đôi khi là cả đoạn văn.
2. Cách tiếp cận dựa trên khoảng trắng
Cách đơn giản nhất để phân đoạn từ là sử dụng khoảng trắng giữa các ký tự và điều này hoạt động tốt đối với các ngôn ngữ có sử dụng dấu cách. Ví dụ như ngôn ngữ sử dụng hệ thống chữ Latinh như tiếng Anh, tiếng Ả Rập, tiếng Cyrillic hoặc tiếng Hy Lạp. Đây là một cách hữu ích để tách từ ra. Một từ là một đối tượng nằm giữa dấu cách. Vì vậy, chúng ta sẽ giới thiệu một số công cụ Unix đơn giản để xử lý văn bản và bắt đầu bằng chương trình TR trong Unix, điều đó có ích cho việc tách từ dựa trên khoảng trắng. Mục tiêu của chúng ta ở đây là lấy một tệp văn bản và xuất ra các từ và tần suất của chúng. Chúng ta sẽ giới thiệu một số công cụ Unix tiêu chuẩn được sử dụng để xử lý văn bản. Ví dụ như, chúng ta có một nguyên tố Shakespeare, các tác phẩm hoàn chỉnh của Shakespeare. Bạn có thể nhìn thấy ở đây là các bài thơ và tiếp theo là các vở kịch. Vậy, chúng ta hãy bắt đầu bằng cách trích xuất tất cả các từ trong nguyên liệu. Chúng ta sẽ làm điều này bằng cách sử dụng chương trình TR. Nguyên tắc là TR truyền một ký tự và nó ánh xạ mọi phiên bản của ký tự đó sang một ký tự khác. Chúng ta chỉ định "tr -c", có nghĩa là phần bù. Điều đó có nghĩa là lấy mỗi ký tự không phải là một trong những ký tự này và chuyển thành dòng xuống mới.","我们本次将引入文本.استمر على مسرحية يبدأ.开始正文.,每个NLP任务都需要文本标准化,并且我们通常至少考虑标准化中的三个.例如希望您喜.遦舞形象化自祖先,文本中的每个材料都是由各种缀于头部.给扫帚擦地的人留下的是传统舞蹈。现代扫帚可能洗地板的人的方式之一。。中国是唯一以上半篇的婚礼。"."""
Chuẩn hóa Văn bản và Quá trình Phân đoạn Từ
Trong các bài giảng tiếp theo, chúng ta sẽ giới thiệu về chuẩn hóa văn bản, quá trình biến một văn bản thành định dạng tiêu chuẩn của từ hoặc câu. Chúng ta sẽ bắt đầu bằng việc nghĩ về phân đoạn từ, việc chia một văn bản thành các phần từ đại diện cho từng từ hoặc một phần của từ.
1. Giới thiệu về chuẩn hóa văn bản
Mỗi tác vụ xử lý ngôn ngữ tự nhiên đều yêu cầu việc chuẩn hóa văn bản và chúng ta thường nghĩ đến ít nhất ba quy trình liên quan đến việc chuẩn hóa. Cụ thể là phân đoạn từ hoặc phân đoạn các từ ra. Sau đó, khi chúng ta đã phân đoạn các từ này, chúng ta muốn chuẩn hóa chúng thành một định dạng. Do đó, chúng ta có một định dạng tiêu chuẩn cho văn bản của mình và chúng ta cũng sẽ phải phân đoạn các đoạn văn bản lớn hơn, câu hoặc đôi khi là cả đoạn văn.
2. Cách tiếp cận dựa trên khoảng trắng
Cách đơn giản nhất để phân đoạn từ là sử dụng khoảng trắng giữa các ký tự và điều này hoạt động tốt đối với các ngôn ngữ có sử dụng dấu cách. Ví dụ như ngôn ngữ sử dụng hệ thống chữ Latinh như tiếng Anh, tiếng Ả Rập, tiếng Cyrillic hoặc tiếng Hy Lạp. Đây là một cách hữu ích để tách từ ra. Một từ là một đối tượng nằm giữa dấu cách. Vì vậy, chúng ta sẽ giới thiệu một số công cụ Unix đơn giản để xử lý văn bản và bắt đầu bằng chương trình TR trong Unix, điều đó có ích cho việc tách từ dựa trên khoảng trắng. Mục tiêu của chúng ta ở đây là lấy một tệp văn bản và xuất ra các từ và tần suất của chúng. Chúng ta sẽ giới thiệu một số công cụ Unix tiêu chuẩn được sử dụng để xử lý văn bản. Ví dụ như, chúng ta có một nguyên tố Shakespeare, các tác phẩm hoàn chỉnh của Shakespeare. Bạn có thể nhìn thấy ở đây là các bài thơ và tiếp theo là các vở kịch. Vậy, chúng ta hãy bắt đầu bằng cách trích xuất tất cả các từ trong nguyên liệu. Chúng ta sẽ làm điều này bằng cách sử dụng chương trình TR. Nguyên tắc là TR truyền một ký tự và nó ánh xạ mọi phiên bản của ký tự đó sang một ký tự khác. Chúng ta chỉ định "tr -c", có nghĩa là phần bù. Điều đó có nghĩa là lấy mỗi ký tự không phải là một trong những ký tự này và chuyển thành dòng xuống mới.