HomeOur Team
Một số loại Regex thường dùng trong Tiếng Nhật

Một số loại Regex thường dùng trong Tiếng Nhật

By cung.nguyen
Published in Tips / Tricks
November 03, 2022
2 min read

Trong tiếng Nhật và một số ngôn ngữ châu Á khác, thường có hai loại bộ ký tự được sử dụng trên máy tính. 半角 = hankaku = nửa độ rộng 全角 = zenkaku = toàn độ rộng blg12.png

Tùy thuộc vào đặc thù của từng trang web, người dùng có thể được yêu cầu điền vào form đăng kí với các bộ ký tự khác nhau. Thông thường, bộ ký tự zengaku sẽ dùng cho tên và hankaku sẽ dùng cho số điện thoại.

Vậy tại sao lại xuất hiện 2 loại bộ ký tự này?

Theo một Công ty hỗ trợ nhập dữ liệu và tổng hợp dữ liệu khảo sát có tên Morgan Data System KK, đã cung cấp lời giải thích về zenkaku và hankaku như sau:

“Các ký tự nửa độ rộng là ký tự 1 byte, ký tự toàn độ rộng là ký tự 2 byte”. “Ký tự 1 byte gồm 8 chữ số nhị phân và có thể hiển thị 256 sự kết hợp khác nhau. Nhưng 256 giá trị đó không đủ để đại diện cho tất cả các chữ cái tiếng Nhật. Tuy nhiên, các ký tự 2 byte (16 chữ số nhị phân) có thể hiển thị 65.536 sự kết hợp khác nhau, và nó đủ để đại diện cho các ngôn ngữ có hàng nghìn ký tự như tiếng Nhật và tiếng Trung. ”

Giới thiệu cơ bản về Regex

Regex hay còn gọi là Regular Expressions, được sử dụng nhiều trong các trường hợp validate email, input, … Regex được tạo thành từ các ký tự số 0-9, các chữ cái, ký tự đặc biệt trên bàn phím như %#$@!. Sau đây là một số cú pháp cơ bản hay được sử dụng của regex: “*” - Khớp với ký tự hoặc biểu thức xuất hiện đằng trước 0 lần hoặc nhiều lần “$” - Khớp với chuỗi kết thúc bằng một chuỗi đứng trước dấu $ “^” - Khớp với chuỗi bắt đầu bằng một chuỗi theo sau dấu ^ “[]” - dùng để so khớp nhiều ký tự khác nhau trong cũng một vị trí, nó sẽ khớp với bất kỳ ký tự nào nằm bên trong cặp ngoặc vuông []

Một số kiểu Regex thông dụng trong Tiếng Nhật thường

Ký tự chữ Kanji

([一-龯])

Ký tự chữ Hiragana và Katakana

([ぁ-んァ-ン])

Ký tự Hirgana hoặc Katakana và các ký tự ngẫu nhiên khác

([ぁ-んァ-ン!:/])

Ký tự Katakana fullwidth(全角)

([ァ-ン])

Ký tự Katakana halfwidth(半角)

([ァ-ン゙゚])

Ký tự Hiragana

([ぁ-ん])

Tất cả đều là chữ số (fullwidth)

([0-9])

Tất cả đều là chữ số (halfwidth)

([0-9])

Ký tự alphabet full-width (zenkaku 全角)

([A-z])

Ký tự alphabet half-width (hankaku 半角)

([A-z])

Trường hợp email

/^\S+@\S+\.\S+$/

Số điện thoại di động Nhật Bản

/^¥d{3}-¥d{4}-¥d{4}$|^¥d{11}$/
/^0¥d0-¥d{4}-¥d{4}$/

Mã bưu điện Nhật Bản

/^¥d{3}¥-¥d{4}$/
/^¥d{3}-¥d{4}$|^¥d{3}-¥d{2}$|^¥d{3}$/

Thẻ tín dụng

/^(?:4[0-9]{12}(?:[0-9]{3})?|5[1-5][0-9]{14}|6011[0-9]{12}|3(?:0[0-5]|[68][0-9])[0-9]{11}|3[47][0-9]{13})$/
Kết luận:

Các câu lệnh regex này không đặc biệt phức tạp, chúng chỉ sử dụng 4 quy tắc đã giải thích ở đầu bài viết. Dấu hoa thị, vị trí kết thúc, vị trí bắt đầu và các biểu thức dấu ngoặc. Kết hợp chúng lại với nhau, trong nhiều trường hợp chúng ta hoàn toàn có thể tự viết được đoạn code của mình.


Tags

Regexzengakuhankaku

Share

cung.nguyen

cung.nguyen

Developer

Expertise

Related Posts

Bảo mật với Flutter - Best Practices [Phần 1]
Tips / Tricks
Bảo mật với Flutter - Best Practices [Phần 1]
December 29, 2022
5 min
© 2023, All Rights Reserved.
Powered By

Quick Links

HomeOur Team

Social Media