Skip links

CÔNG CỤ THU THẬP DỮ LIỆU

Công cụ thu thập dữ liệu Tornado

Có thể nói, bước đầu tiên trong quy trình xử lý big data chính là tạo/thu thập dữ liệu. Đối với cơ sở dữ liệu truyền thống (Database), dữ liệu được tạo trong một ứng dụng và giao diện người dùng của DB thay vì nhập vào từ bên ngoài và các trình xử lý. Trong khi đó, đối với Big data, dữ liệu được nhập vào từ bên ngoài rồi xử lý, thay vì được tạo ra bên trong ứng dụng. Trong môi trường công nghệ big data, quá trình xử lý dữ liệu bắt đầu với việc thu thập dữ liệu.

Giới thiệu

Công cụ thu thập Big data (Tornado) của Saltlux sử dụng cả phương pháp tiếp cận chủ động và thụ động. Đây là công cụ xử lý big data có thể thu thập tự động và song song trong thời gian thực theo sở thích của người dùng từ big data được tạo trong nhiều lĩnh vực khác nhau như deepweb, SNS, trang web mua sắm, IoT và dữ liệu phát trực tuyến. Tornado cung cấp một môi trường thu thập big data được tối ưu hóa để phân tích trong thời gian thực big data xã hội, đối thủ cạnh tranh, thị trường và sản phẩm, quản lý rủi ro và nhận dạng giọng nói của khách hàng.
Công cụ có khả năng ngăn chặn việc mất và trùng lặp dữ liệu, nén dữ liệu, cấu trúc dữ liệu, mã hóa dữ liệu được lưu trữ, xác thực thuận tiện cho người sử dụng. Ngoài ra, công cụ này cũng có thể tự động khai thác, chuyển đổi và lưu trữ big data từ các trang web ẩn, song song với thu thập dữ liệu web. Tornado là công cụ thu thập big data mạnh nhất trên thế giới, có khả năng thu thập big data trên mạng xã hội như tin tức, RSS, Twitter, Facebook, Weibo, v.v.

8

< Sơ đồ khái niệm công cụ thu thập dữ liệu lớn >

Đặc điểm chính

  • Tích hợp nhiều chức năng thu thập dữ liệu lớn
    Nhiều tính năng thu thập khác nhau (thu thập dựa trên hệ thống tình huống giả định người dùng, RSS, web, deep web, mạng xã hội, OpenAPI) được tích hợp sẵn cho nhiều loại big data cả trong và ngoài theo nhu cầu của người dùng.
  • Công cụ hệ thống quy tắc biên tập (workbench) được xây dựng để đảm bảo hiệu suất trích xuất dữ liệu
    Thông qua hệ thống quy tắc chỉnh sửa dựa trên quan sát tính khả dụng, công cụ này được tích hợp để có thể dễ dàng trích xuất và thu thập dữ liệu từ nhiều loại trang web động khác nhau như JS và AJAX.
  • Thu thập phân tán song song và hỗ trợ nhiều hệ điều hành khác nhau
    Công cụ có thể thu thập một lượng dữ liệu khổng lồ sử dụng các quy tắc được thiết lập khác nhau một cách nhanh chóng hơn và đáng tin cậy hơn thông qua phương pháp song song phân tán. Công cụ có thể được cài đặt và vận hành trong các hệ điều hành khác nhau (UNIX, Window, v.v.).
  • Chức năng mô phỏng thu thập và xem trước thu thập người dùng
    Để tối ưu hoá thuận tiện trong quá trình sử dụng của người dùng, công cụ này cung cấp chức năng kiểm tra chất lượng dữ liệu được thu thập thông qua việc mô phỏng trước quá trình thu thập dữ liệu sử dụng những quy tắc thu thập được khi xem trước dữ liệu người dùng.
  • Công cụ quản lý dễ dàng và thuận tiện
    Người vận hành/quản lý có thể dễ dàng và nhanh chóng kiểm tra trạng thái hiện tại thông qua bảng điều khiển tích hợp để theo dõi tình hình chung của công cụ thu thập. Đồng thời, công cụ quản lý vận hành này cũng cung cấp công cụ quản lý vận hành giúp theo dõi các chính sách thu thập và đặt lịch hẹn trước cho từng nguồn thu thập dữ liệu trong thời gian thực.

Chức năng chính và thông số kĩ thuật 

Để xử lý các loại thu thập dữ liệu bên trong và bên ngoài cần thiết cho phân tích hội tụ thông minh của big data có cấu trúc, công cụ thu thập big data (Tornado) của Bigdata Suite cung cấp chức năng thu thập các tình huống giả định người dùng, thu thập dữ liệu dựa trên RSS, deepweb, meta search, mạng xã hội và cả OpenAPI. Các tác vụ thu thập do người quyết định có thể được thực hiện bằng cách kiểm tra xem công việc thu thập dữ liệu có hoạt động như dự định thông qua trình giả lập bên trong công cụ thu thập hay không. Trong quá trình vận hành thực tế, công cụ này cung cấp chức năng hẹn trước lịch, chức năng giám sát trạng thái vận hành có thể theo dõi kết quả thu thập trong thời gian thực và cả chức năng quản lí vận hành chung.

7

< Quy trình hoạt động của công cụ thu thập dữ liệu >

  • Chức năng thu thập mạng xã hội

Công cụ cung cấp chức năng hẹn lịch trước để có thể dễ dàng thu thập các loại dữ liệu xã hội khác nhau như Twitter, trang Facebook công khai, dòng thời gian trên Weibo và đặt chu kỳ thu thập cho mục tiêu thu thập. Đồng thời cung cấp chức năng xem lịch sử để kiểm tra trạng thái thu thập.

  • Chức năng thu thập dựa trên tình huống giả định

Dữ liệu về các mục tiêu được thu thập và trích xuất, dựa vào các giả định được tạo bởi người dùng từ các trang web khác nhau như tin tức, blog, trang web mua sắm và các trang chủ tương ứng, dữ liệu về các mục tiêu được thu thập và trích xuất. Công cụ này còn cung cấp chức năng hẹn lịch trước để đặt chu kỳ thu thập và chức năng xem lịch sử để kiểm tra trạng thái thu thập ngay cả trong công cụ workbench.

  • Chức năng thu thập Deepweb

Chức năng ông cụ có thể dễ dàng thu thập thông tin trong các trang web bằng cách thu thập dựa trên URL hoặc lọc theo mẫu URL hoặc từ khóa. Nó cũng cung cấp tính năng lập lịch để thiết lập chu kỳ thu thập và tính năng xem lịch sử trạng thái để kiểm tra tình trạng thu thập thông tin.

  • Chức năng quản lý vận hành động cơ thu thập

① Chức năng quản lý vận hành – Chức năng bảng điều khiển theo dõi trạng thái
② Chức năng quản lý người dùng/người điều hành
③ Chức năng quản lý theo mục tiêu thu thập (dự án)

  • Chức năng thu thập RSS

Chức năng RSS có thể đọc bảng tin và không chỉ trích xuất dữ liệu trên bảng tin của đối tượng thu thập mà còn có thể liên kết với dữ liệu nguồn, đồng thời cũng cung cấp chức năng hẹn trước lịch để đặt chu kì thu thập và xem lịch sử để kiểm tra trạng thái thu thập trong công cụ workbench.

  • Chức năng thu thập API mở

Công cụ cung cấp chức năng lập kế hoạch để có thể dễ dàng thu thập các tài liệu và dữ liệu mở khác nhau như dữ liệu công khai ở Hàn Quốc và quốc tế, dữ liệu công khai của chính quyền địa phương, đồng thời đặt chu kỳ thu thập cho đối tượng thu thập. Nó cũng chức năng xem lịch sử thu thập để kiểm tra trạng thái thu thập.

  • Chức năng thu thập tìm kiếm siêu dữ liệu (metasearch)

Tính năng thu thập dựa trên từ khóa sẽ gửi từ khóa của người dùng đến các công cụ tìm kiếm khác nhau, bao gồm Google, Bing, Daum, Naver và Yahoo, sau đó hợp nhất các kết quả tìm kiếm thành một danh sách duy nhất. Công cụ cũng cung cấp tính năng lập lịch để thu thập và thiết lập chu kỳ một cách hiệu quả các mục tiêu thu thập và tính năng xem lịch sử trạng thái để kiểm tra trạng thái.

 Màn hình công cụ chính

1
2

Leave a comment

This website uses cookies to improve your web experience.