Chi tiết Graph DB Suite

GraphDB Suite

Công cụ chuyển đổi dữ liệu đồ thị

Dữ liệu có cấu trúc là dữ liệu có cấu trúc cố định như RDBMS, Excel, CSV, TSV, RDF. Dữ liệu phi cấu trúc là dữ liệu có cấu trúc của văn bản như tài liệu web và hướng dẫn sử dụng. Quy trình bắt đầu bằng việc chuyển đổi sang biểu đồ dữ liệu, sau đó tích hợp dữ liệu vào GraphDB. Việc này giúp người sử dụng phán đoán một cách nhanh chóng, dễ dàng hơn mối quan hệ phức tạp giữa những dữ liệu lớn, đa dạng được rải rác ở cả bên trong và ngoài phạm vi dữ liệu.

Đối với phương pháp chuyển đổi dữ liệu, có thể liên kết cấu trúc nguồn dữ liệu và mô hình dữ liệu sơ đồ tri thức hoặc có thể trích xuất dữ liệu dưới dạng các thuộc tính, giá trị của tài nguyên nhất định tương ứng với mô hình sơ đồ tri thức để chuyển đổi thành dữ liệu đồ thị trong văn bản phi cấu trúc. Ngoài ra, có thể liên kết trực tiếp, tích hợp RDB và RDF thông qua kỹ thuật ánh xạ trực tiếp RDF (RDF Direct Mapping) của W3C.

Công cụ chuyển đổi dữ liệu của Saltlux là công cụ thích hợp trong việc xử lý và đảm bảo chất lượng của dữ liệu đồ thị bằng cách hỗ trợ ngôn ngữ ánh xạ (RML: Rule Mapping Language) được sử dụng để chuyển đổi và tích hợp R2RML của W3C, RDB, hỗ trợ nguồn dữ liệu đa dạng và hỗ trợ chọn lọc dữ liệu trong quá trình ánh xạ (mapping).

8

< Bản đồ chuyển đổi dữ liệu – Công cụ chuyển đổi dữ liệu đồ thị >

Giới thiệu

Công cụ chuyển đổi dữ liệu đồ thị là công cụ tạo ra dữ liệu phù hợp sơ đồ tri thức thông qua ánh xạ giữa các mô hình sơ đồ tri thức và nguồn dữ liệu (DBMS, CSV, RDF). Công cụ này còn cung cấp tất cả các dữ liệu dạng có cấu trúc như RDB thông qua việc hỗ trợ ngôn ngữ R2RML của W3C và cung cấp ngôn ngữ RML (quy tắc chuyển đổi dữ liệu nội bộ), ngoài ra nó cũng cung cấp chức năng xử lý và chuyển đổi dữ liệu người dùng thành chế độ xem dữ liệu ảo (Data View). Người dùng có thể thực hiện nhanh chóng và dễ dàng công việc chuyển đổi dữ liệu thông qua công cụ chuyển đổi dữ liệu đồ thị.

7

< Bảng cấu tạo chức năng – Công cụ chuyển đổi dữ liệu đồ thị >

Chức năng quản lý công cụ dữ liệu đồ thị cung cấp các chức năng hữu ích giúp người dùng có thể xử lý chuyển đổi dữ liệu (như xử lý trước dữ liệu, chuyển đổi, xử lý sau dữ liệu) bao gồm chức năng liên kết và chuyển đổi dữ liệu, chức năng xem nguồn dữ liệu, xem mô hình dữ liệu (schema), xem và kiểm tra SPARQL, xem tệp CSV/Excel, soạn thảo và kiểm tra RML, thống kê chuyển đổi.

9

< Quy trình chuyển đổi dữ liệu đồ thị >

Quy trình chuyển đổi dữ liệu được thực hiện theo quy trình lựa chọn nguồn dữ liệu, tạo chế độ xem dữ liệu phù hợp với nguồn dữ liệu, định nghĩa bản đồ đồ thị, xem dữ liệu và liên kết bản đồ đồ thị, tạo dữ liệu đồ thị. Bản đồ đồ thị xác định thực thể tương ứng với mô hình đồ thị và được sử dụng trong trường hợp cần tinh lọc giá trị khi tạo ra giá trị thuộc tính của tài nguyên nhất định.

10

< Công cụ và quy trình trích xuất dữ liệu phi cấu trúc dung lượng lớn >

Đặc điểm chính

Công cụ chuyển đổi dữ liệu đồ thị được áp dụng để xác định trực tiếp chế độ xem và chắt lọc dữ liệu (được xác định bởi người dùng) như cung cấp chế độ xem dữ liệu ảo hỗ trợ dữ liệu dung lượng lớn và nguồn dữ liệu khác nhau, cung cấp chế độ tinh chế và chắc lọc dữ liệu khi chuyển đổi dữ liệu. Ưu điểm lớn nhất của công cụ chuyển đổi dữ liệu đồ thị là người dùng có thể tạo ra chế độ xem dữ liệu (Data View) hoặc tạo ra chức năng người dùng (chắt lọc, tinh chế,…) dưới dạng trình cắm có địa chỉ URI, do đó cùng một chức năng có thể phân loại và sử dụng cho các dự án khác nhau thông qua địa chỉ URI. Ngoài ra, còn có thể quản lý cấu hình cho từng dự án đang được thực hiện thông qua liên kết với máy chủ quản lý cấu hình (SVN, CVS, Git,…). Công cụ này có những tính năng chính sau:

11

Chức năng chính và thông số kỹ thuật

Công cụ chuyển đổi dữ liệu đồ thị xử lý việc tạo ra dữ liệu đồ thị có cấu trúc và phi cấu trúc trong GraphDB bao gồm chức năng chuyển đổi dữ liệu cốt lõi và công cụ quản lý hỗ trợ chuyển đổi dễ dàng. Dữ liệu có cấu trúc có thể trích xuất/chuyển đổi dữ liệu thông qua biểu đồ liên kết, đối với dữ liệu phi cấu trúc chức năng trích xuất dữ liệu của KENT có thể được kết hợp để trích xuất và chuyển đổi giá trị thuộc tính cần thiết cho mô hình dữ liệu.

  • Chức năng chuyển đổi dữ liệu hỗ trợ các định dạng khác nhau

Chức năng chuyển đổi dữ liệu của GraphDB cung cấp quy trình và phương pháp tạo ra dữ liệu đồ thị, cung cấp chức năng kiểm tra kết quả trước khi chuyển đổi và chức năng lưu trữ trực tiếp kết quả chuyển đổi vào GraphDB. Chức năng cốt lõi được cấu tạo chủ yếu dưới dạng trình cắm để có thể tối ưu hóa chức năng phù hợp với môi trường người dùng.

12
  • Chức năng tăng cường và chuyển đổi dữ liệu đồ thị có dung lượng cực lớn

Công cụ chuyển đổi dữ liệu đồ thị cung cấp quá trình và phương pháp chuyển đổi dữ liệu phức tạp như chuyển đổi kiến thức cho các bộ dữ liệu lớn có bên trong và ngoài dữ liệu như Wikipedia, Wikidata, tăng cường và sửa lỗi dữ liệu sơ đồ tri thức.

13

GraphDB cung cấp các chức năng bao gồm thu thập dữ liệu, trích xuất, tổng hợp và hiệu chỉnh tài nguyên, tạo dữ liệu đồ thị, có thể thêm hoặc tối ưu hóa chức năng theo phương thức trình cắm. Ngoài ra, còn cung cấp API quản lý và kiểm soát quá trình chuyển đổi.

14
  • Chức năng quản lý công cụ chuyển đổi dữ liệu

Công cụ quản lý công cụ chuyển đổi bao gồm các chức năng chỉnh sửa và thực thi quy tắc chuyển đổi dữ liệu, nguồn dữ liệu, chức năng người dùng, SPARQL, chế độ xem tài nguyên giúp người dùng có thể soạn thảo nhanh chóng và dễ dàng quy tắc chuyển đổi sau khi sử dụng các chức năng tương ứng. Tất cả các chức năng chuyển đổi đều dựa trên không gian tên, vì vậy một chức năng trùng lặp có thể phân loại và sử dụng thông qua không gian tên. Trình chỉnh sửa quy tắc của công cụ quản lý cung cấp chức năng tự động hoàn thành cho các biến số, hàm số và khi mô hình dữ liệu của người dùng được nhập trình chỉnh sửa sẽ tự động bao gồm các lớp, thuộc tính trong mục tự động hoàn thành, do đó người dùng có thể tạo ra quy tắc chuyển đổi sau khi tham khảo dễ dàng các lớp, thuộc tính đó.

15

Main engine screen

sparql viewer

<Chế độ xem SPARQL>

kiểm tra chuyển đổi dữ liệu

<Kiểm tra chuyển đổi dữ liệu>

chỉnh sửa quy tắc chuyển đổi

<Chỉnh sửa quy tắc chuyển đổi>

kết quả chuyển đổi dữ liệu

<Kết quả chuyển đổi dữ liệu>