Xây dựng CHƯƠNG TRÌNH DỊCH - Chương 2: Phân tích từ vựng
Số trang: 22
Loại file: ppt
Dung lượng: 204.00 KB
Lượt xem: 19
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Tìm chuỗi dài nhất các ký tự đầu vào, bắt đầu từ ký tự hiện tại tương ứng với một từ tố và trả về từ tố này
Nhiệm vụ
Duyệt từng ký tự của văn bản nguồn
Loại bỏ các ký tự không cần thiết như dấu cách, chú thích,..
Xây dựng từ vựng từ những ký tự đọc được
Nhận dạng từ tố và gửi tới pha tiếp
Nhận biết từ tố gồm
Nhận biết các từ khóa, tên do người dùng định nghĩa
Nhận biết các con số, hằng chuỗi, hằng ký tự
Nhận biết các ký tự đặc biệt (+,*,..), ký hiệu kép (:=,!=,..)...
Nội dung trích xuất từ tài liệu:
Xây dựng CHƯƠNG TRÌNH DỊCH - Chương 2: Phân tích từ vựng Xây dựng CHƯƠNG TRÌNH DỊCH Phạm Đăng Hải haipd@soict.hut.edu.vn Chương 2: Phân tích từ vựng 1. Nhiệm vụ của bộ phân tích từ vựng 2. Biểu diễn cấu trúc từ vựng 3. Phân tích từ vựng của ngôn ngữ KPL 05/29/13 2 1. Nhiệm vụ của bộ phân tích Mục đích & Nhiệm vụ • Mục đích: – Tìm chuỗi dài nhất các ký tự đầu vào, bắt đầu từ ký tự hiện tại tương ứng với một từ tố và trả về từ tố này • Nhiệm vụ – Duyệt từng ký tự của văn bản nguồn • Loại bỏ các ký tự không cần thiết như dấu cách, chú thích,.. – Xây dựng từ vựng từ những ký tự đọc được – Nhận dạng từ tố và gửi tới pha tiếp Nhận biết từ tố gồm – Nhận biết các từ khóa, tên do người dùng định nghĩa – Nhận biết các con số, hằng chuỗi, hằng ký tự – Nhận biết các ký tự đặc biệt (+,*,..), ký hiệu kép (:=,!=,..) 05/29/13 3 1. Nhiệm vụ của bộ phân tích Từ vựng và Từ tố • Từ vựng (Lexeme) – Là đơn vị nhỏ nhất trong ngôn ngữ lập trình • Được coi là ký hiệu của một bảng chữ của ngôn ngữ – Được xây dựng từ các ký tự ASCII • Từ tố (Token) – Là thuật ngữ dùng chỉ các từ vựng có cùng ý nghĩa cú pháp • Có thể coi từ vựng là những từ cụ thể trong từ điển: “hôm nay”, “trời”, “đẹp”; còn từ tố là loại từ: “trạng từ”, “danh từ”, “tính từ”,.. 05/29/13 4 1. Nhiệm vụ của bộ phân tích Từ tố→Ví dụ pos := start + 10 * size; • “pos”, “start”, “size”, “+”, “10”, “*”,”:=“, “;” là từ vựng • “pos”, “start”, “size”, → các từ vựng thuộc lớp từ tố tên (ident) • ”:=“→ từ vựng của từ tố gán (assign) • “10” → từ vựng của từ tố số nguyên (number) • “+” → từ vựng của từ tố cộng (plus) • “*” → từ vựng của từ tố nhân (times) • “;” → từ vựng của từ tố chấm phẩy (semicolone) 05/29/13 5 1. Nhiệm vụ của bộ phân tích Từ tố→Chú ý • Các từ tố Ident, number, plus, assign,... do người viết trình dịch tự định nghĩa để dễ dàng cho việc mã hóa chương trình. Đây là việc số hóa ký hiệu • Một từ tố có thể ứng với tập các từ vựng khác nhau nên cần thêm một số thông tin khác để biết được cụ thể đó là từ vựng nào – Các chuỗi “19”, “365” đều là chuỗi số, có từ tố “number”, nhưng khi sinh mã cần phải biết rõ giá trị là 19 hay 365 • Bộ phân tích từ vựng không chỉ nhận dạng được các từ tố mà còn phải biết thuộc tính tương ứng – Từ tố tác động đến bộ phân tích cú pháp – Thuộc tính sử dụng trong bộ sinh mã 05/29/13 6 1. Nhiệm vụ của bộ phân tích Thực hiện Token Chương Phân tích Phân tích trình nguồn từ vựng getToken() cú pháp Bảng ký hiệu • Thực hiện lặp dựa vào yêu cầu từ bộ ptcp – Bộ ptcp khi cần một từ tố sẽ gọi getToken() – Nhận được y/cầu, bộ pttv sẽ đọc các ký tự cho tới khi xây dựng xong từ vựng và nhận ra từ tố hoặc gặp lỗi • Thường bộ pttv được chia thành 2 phần chính – Đọc ký tự – Xây dựng từ vựng và nhận dạng từ tố 05/29/13 7 1. Nhiệm vụ của bộ phân tích Mẫu (Pattern) • Là luật để mô tả một từ tố nào đó – Cơ sở phân biệt & nhận dạng các từ tố khác nhau • Chuỗi ký tự cùng thỏa mãn một luật⇒có cùng một từ tố • Từ tố là tên riêng của một luật mô tả, từ vựng là một trường hợp thỏa mãn luật • Ví dụ – Luật mô tả của từ tố Ident • Bắt đầu là một chữ cái • Tiếp theo là tổ hợp chữ cái, chữ số – Luật mô tả của từ tố assign • Bắt đầu bởi ký tự “:”, ngay sau đó là ký tự “=“ • Dùng văn phạm chính quy để mô tả 05/29/13 8 Chương 2: Phân tích từ vựng 1. Nhiệm vụ của bộ phân tích từ vựng 2. Biểu diễn cấu trúc từ vựng 3. Phân tích từ vựng của ngôn ngữ KPL 05/29/13 9 2. Biểu diễn cấu trúc từ vựng Biểu thức chính quy (regular expression) Cho Σ là một bảng chữ. ∅ là biểu thức chính quy biểu diễn tập ∅ ε là biểu thức chính quy biểu diễn tập {ε} ∀a ∈ Σ, a là biểu thức chính quy biểu diễn tập {a} – Nếu r và s là các biểu thức chính quy biểu diễn các tập R và S tương ứng thì (r + s) [(r|s)], (rs), (r*) là các biểu thức chính quy biểu diễn các tập R ∪ S, RS và R* tương ứng. Ngôn ngữ được xác định bởi biểu thức chính quy e, ký hiệu là L(e) là ngôn ngữ chính quy 05/29/13 10 2. Biểu ...
Nội dung trích xuất từ tài liệu:
Xây dựng CHƯƠNG TRÌNH DỊCH - Chương 2: Phân tích từ vựng Xây dựng CHƯƠNG TRÌNH DỊCH Phạm Đăng Hải haipd@soict.hut.edu.vn Chương 2: Phân tích từ vựng 1. Nhiệm vụ của bộ phân tích từ vựng 2. Biểu diễn cấu trúc từ vựng 3. Phân tích từ vựng của ngôn ngữ KPL 05/29/13 2 1. Nhiệm vụ của bộ phân tích Mục đích & Nhiệm vụ • Mục đích: – Tìm chuỗi dài nhất các ký tự đầu vào, bắt đầu từ ký tự hiện tại tương ứng với một từ tố và trả về từ tố này • Nhiệm vụ – Duyệt từng ký tự của văn bản nguồn • Loại bỏ các ký tự không cần thiết như dấu cách, chú thích,.. – Xây dựng từ vựng từ những ký tự đọc được – Nhận dạng từ tố và gửi tới pha tiếp Nhận biết từ tố gồm – Nhận biết các từ khóa, tên do người dùng định nghĩa – Nhận biết các con số, hằng chuỗi, hằng ký tự – Nhận biết các ký tự đặc biệt (+,*,..), ký hiệu kép (:=,!=,..) 05/29/13 3 1. Nhiệm vụ của bộ phân tích Từ vựng và Từ tố • Từ vựng (Lexeme) – Là đơn vị nhỏ nhất trong ngôn ngữ lập trình • Được coi là ký hiệu của một bảng chữ của ngôn ngữ – Được xây dựng từ các ký tự ASCII • Từ tố (Token) – Là thuật ngữ dùng chỉ các từ vựng có cùng ý nghĩa cú pháp • Có thể coi từ vựng là những từ cụ thể trong từ điển: “hôm nay”, “trời”, “đẹp”; còn từ tố là loại từ: “trạng từ”, “danh từ”, “tính từ”,.. 05/29/13 4 1. Nhiệm vụ của bộ phân tích Từ tố→Ví dụ pos := start + 10 * size; • “pos”, “start”, “size”, “+”, “10”, “*”,”:=“, “;” là từ vựng • “pos”, “start”, “size”, → các từ vựng thuộc lớp từ tố tên (ident) • ”:=“→ từ vựng của từ tố gán (assign) • “10” → từ vựng của từ tố số nguyên (number) • “+” → từ vựng của từ tố cộng (plus) • “*” → từ vựng của từ tố nhân (times) • “;” → từ vựng của từ tố chấm phẩy (semicolone) 05/29/13 5 1. Nhiệm vụ của bộ phân tích Từ tố→Chú ý • Các từ tố Ident, number, plus, assign,... do người viết trình dịch tự định nghĩa để dễ dàng cho việc mã hóa chương trình. Đây là việc số hóa ký hiệu • Một từ tố có thể ứng với tập các từ vựng khác nhau nên cần thêm một số thông tin khác để biết được cụ thể đó là từ vựng nào – Các chuỗi “19”, “365” đều là chuỗi số, có từ tố “number”, nhưng khi sinh mã cần phải biết rõ giá trị là 19 hay 365 • Bộ phân tích từ vựng không chỉ nhận dạng được các từ tố mà còn phải biết thuộc tính tương ứng – Từ tố tác động đến bộ phân tích cú pháp – Thuộc tính sử dụng trong bộ sinh mã 05/29/13 6 1. Nhiệm vụ của bộ phân tích Thực hiện Token Chương Phân tích Phân tích trình nguồn từ vựng getToken() cú pháp Bảng ký hiệu • Thực hiện lặp dựa vào yêu cầu từ bộ ptcp – Bộ ptcp khi cần một từ tố sẽ gọi getToken() – Nhận được y/cầu, bộ pttv sẽ đọc các ký tự cho tới khi xây dựng xong từ vựng và nhận ra từ tố hoặc gặp lỗi • Thường bộ pttv được chia thành 2 phần chính – Đọc ký tự – Xây dựng từ vựng và nhận dạng từ tố 05/29/13 7 1. Nhiệm vụ của bộ phân tích Mẫu (Pattern) • Là luật để mô tả một từ tố nào đó – Cơ sở phân biệt & nhận dạng các từ tố khác nhau • Chuỗi ký tự cùng thỏa mãn một luật⇒có cùng một từ tố • Từ tố là tên riêng của một luật mô tả, từ vựng là một trường hợp thỏa mãn luật • Ví dụ – Luật mô tả của từ tố Ident • Bắt đầu là một chữ cái • Tiếp theo là tổ hợp chữ cái, chữ số – Luật mô tả của từ tố assign • Bắt đầu bởi ký tự “:”, ngay sau đó là ký tự “=“ • Dùng văn phạm chính quy để mô tả 05/29/13 8 Chương 2: Phân tích từ vựng 1. Nhiệm vụ của bộ phân tích từ vựng 2. Biểu diễn cấu trúc từ vựng 3. Phân tích từ vựng của ngôn ngữ KPL 05/29/13 9 2. Biểu diễn cấu trúc từ vựng Biểu thức chính quy (regular expression) Cho Σ là một bảng chữ. ∅ là biểu thức chính quy biểu diễn tập ∅ ε là biểu thức chính quy biểu diễn tập {ε} ∀a ∈ Σ, a là biểu thức chính quy biểu diễn tập {a} – Nếu r và s là các biểu thức chính quy biểu diễn các tập R và S tương ứng thì (r + s) [(r|s)], (rs), (r*) là các biểu thức chính quy biểu diễn các tập R ∪ S, RS và R* tương ứng. Ngôn ngữ được xác định bởi biểu thức chính quy e, ký hiệu là L(e) là ngôn ngữ chính quy 05/29/13 10 2. Biểu ...
Tìm kiếm theo từ khóa liên quan:
Phân tích cú pháp cú pháp quay lui phương pháp dịch phân tích bảng cú pháp tất định chương trình dịchTài liệu có liên quan:
-
Giáo trình Lập trình cơ bản với C++: Phần 1
77 trang 242 0 0 -
Bài giảng Lập trình C căn bản: Chương 2 - Phạm Thế Bảo
31 trang 98 0 0 -
Dịch thì và thể ở thức trực chỉ từ tiếng Anh sang tiếng Việt
11 trang 39 0 0 -
Giáo trình Lập trình nâng cao: Phần 1 - Nguyễn Văn Vinh
126 trang 36 0 0 -
Bài giảng Điện tử tin học lớp 11: Bài 1
9 trang 34 0 0 -
Tập bài giảng Chương trình dịch
218 trang 33 0 0 -
Bài giảng Thực hành chương trình dịch: Bài 5 - Phạm Đăng Hải
66 trang 31 0 0 -
Một số cải tiến giải thuật earley cho việc phân tích cú pháp trong xử lý ngôn ngữ tự nhiên
10 trang 31 0 0 -
Nhập môn Chương trình dịch - Bài 1
17 trang 31 0 0 -
22 trang 30 0 0