Danh mục tài liệu

Xử lý ngôn ngữ tự nhiên

Số trang: 31      Loại file: pdf      Dung lượng: 913.56 KB      Lượt xem: 11      Lượt tải: 0    
Xem trước 4 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Xử lý ngôn ngữ tự nhiên giới thiệu đến các bạn những vấn đề về sự tiến hóa của ngôn ngữ, cơ sở của ngôn ngữ, khả năng phát sinh, vấn đề nói và nghe, hai mô hình của giao tiếp, mô hình bản tin mã hóa, mô hình tình huống giao tiếp, giao tiếp sử dụng ngôn ngữ hình thứ,... Mời các bạn cùng tham khảo để nắm bắt nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên Bởi: Học Viện Công Nghệ Bưu Chính Viễn Thông XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ TRÍ TUỆ NHÂN TẠO Sự tiến hóa của ngôn ngữ Vấn đề để hiểu được lời nói hành động giống như việc hiểu các vấn đề khác, tương tự như việc hiểu hình ảnh hoặc chẩn đoán y học. Chúng ta đưa ra một tập các đầu vào đa nghĩa và từ đó chúng ta làm ngược lại để quyết định trạng thái nào của thế giới có thể được tạo ra đầu vào. Hiểu được vấn đề của lời nói hành động là phần đặc tả của ngôn ngữ. Một phần của hiểu vấn đề có thể giải thích bằng các lí do logic. Chúng ta nhận thấy rằng các chuỗi logic liên kết lại là cách tốt để mô tả cách mà các từ và các cụm từ phối hợp để tạo ra một cụm từ lớn. Phần khác của việc hiểu vấn đề có thể chỉ được giải thích bởi các lí do kĩ thuật không rõ ràng. Thông thường có nhiều trạng thái của thế giới mà tất cả đều hướng dẫn đến một lời nói hành động tương tự, vì vậy người hiểu phải quyết định cái mà nó dễ xảy ra hơn. Cơ sở của ngôn ngữ Một ngôn ngữ hình thức được định nghĩa như một tập các chuỗi kí tự, trong đó mỗi chuỗi kí tự là một chuỗi các biểu tượng được lấy ra từ một tập hữu hạn được gọi là biểu tượng terminal. Một trong những phiền toái khi làm việc với cả ngôn ngữ tự nhiên và ngôn ngữ hình thức là có quá nhiều sự khác biệt hình thức và kí hiệu cho việc viết ngữ pháp. Tuy nhiên, hầu hết chúng đều tương tự như cách mà chúng căn cứ vào ý tưởng của cấu trúc cụm từ - các chuỗi kí tự được soạn thảo của các chuỗi kí tự cơ sở được gọi là cụm từ, dẫn đến các phạm trù khác nhau. Các phạm trù như cụm danh từ, cụm động từ, câu được gọi là biểu tượng nonterminal. Trong kí pháp BNF quy luật viết phù hợp của biểu tượng nonterminal đơn ở bên trái và liên kết của đầu cuối hoặc không đầu cuối viết ở bên phải. Quy luật được viết như trong ví dụ sau: S → NP VP Có nghĩa là chúng ta có thể đem bất kì cụm từ NP thêm vào sau bất kì cụm từ VP và kết quả là một cụm từ dạng câu. Các bước thành phần của giao tiếp: 1/31 Xử lý ngôn ngữ tự nhiên Một đoạn giao tiếp điển hình, trong đó người nói S muốn truyền đạt lời thông báo P đến người nghe H sử dụng từ W, được sắp xếp trong 7 tiến trình. Ba bước đối với người nói: Mục đích: S muốn H tin P (trong đó S đặc biệt tin P) Phát sinh: S chọn từ W (bởi vì chúng nhấn mạnh nghĩa của P) Tổng hợp: S phát âm từ W ( thường chuyển thẳng chúng đến H) Bốn bước đối với người nghe Nhận thức: H nhận thức W’( W’=W, nhưng mất nhận thức là có thể) Phân tích : H suy luận W’ có thể mang các nghĩa P1…,Pn (từ và cụm từ có thể cónhiều nghĩa) Ý nghĩa hóa: H suy luận rằng S có ý định truyền đạt Pi (trong đó ý nghĩa Pi=P, nhưngsự mất giải thích là có thể) Hợp nhất : H quyết định tin tưởng vào Pi, (hoặc loại bỏ nó nếu nó không được Hchắc chắn tin tưởng) Khả năng phát sinh Ngữ pháp hình thức có thể được phân loại bởi khả năng phát sinh của chúng: tập các ngôn ngữ mà chúng có thể trình bày. Chomsky (1957) mô tả bốn lớp của ngữ pháp hình thức suy luận. Các lớp này được sắp xếp trong một trật tự thứ bậc, trong đó mỗi lớp có thể được mô tả bởi ít nhất một lớp có quyền, giống như việc có thể thêm vài ngôn ngữ vào. Dưới đây là danh sách các lớp theo cấp bậc từ trên xuống dưới: Ngữ pháp đệ quy liệt kê sử dụng quy luật không giới hạn: kích thước của quy luật viết lại có thể chứa số lượng bất kì biểu tượng terminal và không đầu cuối. Ngữ pháp này là tương đương với máy Turing. Ngữ pháp nhạy ngữ cảnh được giới hạn chỉ ở bên phải và phải chứa ít nhất một số biểu tượng ở phía bên trái. Tên “nhạy ngữ cảnh” xuất phát từ một thực tế là một quy luật tương tự như ASB→AXB có nghĩa là một S có thể được viết lại như là một X trong ngữ cảnh của một A có trước và một sự kéo theo B. Trong ngữ pháp phi ngữ cảnh ở phía bên phải chứa một biểu tượng nonterminal đơn. Vì vậy mỗi quy luật cho phép viết lại không đầu cuối ở bên phải trong bất kì ngữ cảnh nào. Ngữ pháp thông thường là lớp được giới hạn nhất. Ngữ pháp thông thường là tương đương trong máy có số trạng thái hạn chế. Chúng không phù hợp lắm cho ngôn ngữ lập 2/31 Xử lý ngôn ngữ tự nhiên trình, vì chúng không thể xây dựng được cách trình bày giống như sự cân bằng của dầu mở và đóng ngoặc đơn. Để đưa ra cho các bạn một ý tưởng ngôn ngữ nào được điều khiển bởi lớp nào, ngôn ngữ anbn (một chuỗi n bản sao của a kéo theo bởi một số lượng tương tự của b) có thể được phát sinh bởi ngữ pháp phi ngữ cảnh, nhưng không phải là ngữ pháp thông thường. Ngôn ngữ đó yêu cầu một ngữ pháp nhạy ngữ cảnh, trong khi ngôn ngữ a*b* (một sự phối hợp của bất kì một số của a theo sau bởi một số bất kì của b) có thể được mô tả bởi một trong 4 lớp trên. Một bảng tóm tắt của 4 lớp: Lớp Quy luật ví dụ Ngôn ngữ ví dụ Ngữ phá ...