Skip links

CÔNG CỤ HIỂU NGÔN NGỮ TỰ NHIÊN LEA

Công cụ hiểu ngôn ngữ tự nhiên LEA

Công cụ hiểu ngôn ngữ tự nhiên (Language Engineering & Analysis – LEA) là một công cụ phân tích ngôn ngữ dựa trên Machine Learning/ Deep Learning, xử lý các chức năng phân tích văn bản như phân tích từ tố, nhận dạng tên đối tượng, phân tích cấu trúc câu và phân tích cảm xúc để xử lý dữ liệu phi cấu trúc. Ngoài ra, bằng việc cung cấp kết quả phân tích cấp cao như hiểu ý định ẩn chứa trong câu hoặc nắm bắt loại câu hỏi dựa trên kết quả xử lý ngôn ngữ tự nhiên, nó cho phép phân tích và hiểu ý định nhằm xử lý hội thoại, hiểu ý nghĩa câu hỏi cho Q/A chuyên sâu. LEA là công cụ cơ bản cần thiết để vận hành các công cụ khác có trong Saltlux AI Suite.

Máy phân tích ngôn ngữ có độ chính xác cao tạo nên LEA được áp dụng với công nghệ Machine Learning và Deep Learning (mạng thần kinh nhân tạo) và có thể tối ưu hóa chất lượng cho từng miền thông qua tài nguyên ngôn ngữ quy mô lớn (dữ liệu học tập dung lượng lớn cho từng lĩnh vực, từ điển và quy tắc). Bộ phân tích từ tố cung cấp hơn 98% chất lượng phân tích, bộ trích xuất tên đối tượng và phân tích cấu trúc câu cung cấp tính năng tối ưu nhất thế giới thông qua xử lý song song/ phân tán. Công cụ này cho phép phản hồi đa ngôn ngữ như tiếng Hàn, tiếng Anh, tiếng Nhật v.v…và là công cụ xử lý ngôn ngữ tự nhiên có thể thực hiện giải đoán ngữ nghĩa, hỏi đáp và biểu hiện hệ thống đối thoại liên kết với Knowledge Graph

7

<Sơ đồ cấu tạo công cụ hiểu ngôn ngữ tự nhiên – LEA>

Đặc điểm chính

Xử lý ngôn ngữ tự nhiên chất lượng cao dựa trên Machine Learning và Deep Learning

Máy phân tích ngôn ngữ có độ chính xác cao tạo nên LEA đang được áp dụng với công nghệ Machine Learning và Deep Learning (mạng thần kinh nhân tạo). Phân tích hình vị và nhận diện tên đối tượng dựa trên mô hình Machine Learning Structural – SVM mới nhất, phân tích cảm xúc tích cực/ tiêu cực dựa trên Latent Structural – SVM, phân tích cấu trúc câu dựa vào phương thức Transition-Based(Arc-Eager) Dependency Parsing từ đó cung cấp các tính năng tốt và nhanh hơn so với thuật toán hiện có, và cho phép ứng dụng Deep Learning vào xử lý ngôn ngữ tự nhiên bằng cách sử dụng Word Embedding.

Dễ dàng áp dụng tên miền

Không giống như các công cụ xử lý ngôn ngữ tự nhiên thông thường chuyên thực hiện xử lý ngôn ngữ trên các từ thông dụng (thuật ngữ), công cụ LEA có thể tối ưu hóa chất lượng cho từng miền thông qua các tài nguyên ngôn ngữ quy mô lớn. Bằng cách xây dựng dữ liệu học tập quy mô lớn một cách riêng biệt, nó hỗ trợ các chức năng để học, và bằng cách sử dụng từ điển chuyên biệt, quy tắc cho mỗi tên miền ngoài từ điển thông thường, nó cung cấp kết quả phân tích phù hợp với đặc điểm ngôn ngữ được sử dụng trong từng lĩnh vực như y tế, tài chính, luật, v.v…

Nhận dạng ý nghĩa thông qua liên kết biểu đồ kiến thức

Công cụ hiểu ngôn ngữ tự nhiên không chỉ dừng lại ở việc xử lý ngôn ngữ tự nhiên chung như phân tích tố từ và phân tích cú pháp, mà còn xác định đối tượng và ý nghĩa của các từ được phân tích. Việc xác định ngữ nghĩa này có thể thực hiện được thông qua kết nối với cơ sở tri thức. Nó xác định ý nghĩa đối tượng của kiến thức thực tế bằng cách sử dụng thông tin trong biểu đồ tri thức và Tagging (gắn thẻ) theo một định dạng mà máy có thể hiểu được. Thông tin ý nghĩa của biểu đồ tri thức được sử dụng làm thông tin quan trọng cần thiết cho quá trình xử lý tri thức của trí tuệ nhân tạo, giống như nó được sử dụng để nắm bắt ý định của một câu nói trong quá trình xử lý hội thoại hoặc để nắm được loại và ý nghĩa của câu hỏi trong quá trình xử lý Q/A.

Các chức năng và thông số kỹ thuật chính

Chức năng xử lý ngôn ngữ tự nhiên

Công cụ hiểu ngôn ngữ tự nhiên cung cấp chức năng xử lý ngôn ngữ tự nhiên cơ bản cho văn bản phi cấu trúc được nhập thông qua bộ phân tích tố từ, bộ nhận dạng tên đối tượng và bộ phân tích cấu trúc câu.

Chức năng phân tích ý định

Đây là chức năng phân tích không chỉ trình bày ý nghĩa từ được biểu hiện trong câu, mà còn bao gồm cả ý nghĩa của câu và kết quả phân tích ý định của câu đó. Khác với kết quả xử lý ngôn ngữ tự nhiên nhạy bén với viết cách khoảng và lỗi chính tả, bằng việc sử dụng từ điển thông thường hoặc quy tắc, quá trình tái cấu trúc và phân tích lại câu được thực hiện lặp lại cho đến khi thu được kết quả phân tích tối ưu. Thông qua quá trình này, ngoài việc sửa lỗi trong câu đầu vào, nó có thể cung cấp một kết quả phân tích chắc chắn cho các lỗi trong câu đầu vào mà người dùng nhập vào xử lý hội thoại hoặc Q&A

Chức năng hiểu câu hỏi

Công cụ LEA không chỉ cung cấp kết quả NLP đơn giản mà còn cung cấp kết quả phân tích ngữ nghĩa câu để hiểu câu hỏi của người dùng trong xử lý hội thoại cũng như xử lý Q&A. Đối tượng ngữ nghĩa được xác định bằng cách liên kết các kết quả được phân tích thông qua xử lý ngôn ngữ tự nhiên với thông tin Knowledge Graph trong câu đầu vào. Chức năng này cũng xác định xem bản thân câu văn là câu trần thuật hay câu nghi vấn, nếu là câu nghi vấn thì nó sẽ phân loại loại câu nghi vấn đó. Như vậy, bằng cách phân tích thông tin kiến thức ngữ nghĩa có trong câu và loại cấu trúc của câu rồi đưa ra kết quả, nó có thể hiểu nội dung và ý định của câu hỏi. Chức năng hiểu câu hỏi là chức năng cốt lõi của quá trình nhận thức/ hiểu biết đối với các dịch vụ AI bằng cách tích hợp công nghệ nhận diện ngôn ngữ có độ chính xác cao dựa trên Mahine Learning cùng chức năng phân tích ý định và công nghệ học tập ngôn ngữ/ ý định/ kiến thức dựa trên Deep Learning.

Chức năng quản lý từ điển

Nó cung cấp chức năng quản lý từ điển có thể tích hợp các từ điển ngôn ngữ chính cho dù chúng được sử dụng trong công cụ hiểu ngôn ngữ tự nhiên. Thông qua chức năng quản lý từ điển ngôn ngữ tích hợp dựa trên web, chúng ta có thể dễ dàng bổ sung và phản ánh tài nguyên ngôn ngữ như từ, từ gần nghĩa, từ đồng nghĩa sẽ loại bỏ khi xử lý các thuật ngữ hoặc ngôn ngữ quan trọng được sử dụng trong tên miền cụ thể. Thông qua đó, có thể cung cấp kết quả phân tích tùy chỉnh theo người dùng hoặc tên miền và có thể cải thiện chất lượng xử lý ngôn ngữ thông qua quản lý thường xuyên và liên tục.

8

Màn hình công cụ chính

9

Leave a comment

This website uses cookies to improve your web experience.