Công cụ thu thập dữ liệu

CÔNG CỤ THU THẬP DỮ LIỆU

Công cụ thu thập dữ liệu Tornado

Có thể mô tả bước đầu tiên của quy trình xử lí big data chính là quy trình sản sinh và thu thập dữ liệu. Đối với cơ sở dữ liệu truyền thống (Data base), dữ liệu được tạo trong một ứng dụng và giao diện người dùng của DB thay vì dữ liệu được nhập từ bên ngoài. Trong khi đó, đối với Big data, dữ liệu được nhập vào từ bên ngoài rồi xử lí, thay vì được tạo bên trong ứng dụng. Trong môi trường công nghệ big data, quá trình xử lý dữ liệu bắt đầu với việc thu thập dữ liệu.

Giới thiệu

Công cụ thu thập Big data (Tornado) có thể sử dụng cả phương pháp tiếp cận chủ động và thụ động, đây là công cụ xử lý Big data có thể thu thập tự động và song song trong thời gian thực dữ liệu lớn theo sở thích của người dùng từ Big data được tạo trong các phân ngành khác nhau như như deepweb, SNS, trang web mua sắm, IoT và dữ liệu phát trực tuyến. TORNADO cung cấp một môi trường thu thập dữ liệu lớn được tối ưu hóa để phân tích trong thời gian thực Big data xã hội, các đối thủ cạnh tranh, thị trường và sản phẩm, quản lý rủi ro và cả nhận dạng giọng nói của khách hàng.

Với các đặc tính có thể ngăn chặn mất và trùng lặp dữ liệu, nén dữ liệu, cấu trúc dữ liệu, mã hóa dữ liệu được lưu trữ, xác thực thuận tiện cho người sử dụng, ngoài ra công cụ này cũng có thể trích xuất, chuyển đổi và lưu trữ Big data tự động từ các trang web ẩn, song song với chức năng thu thập dữ liệu web tối ưu hơn cả. TORNADO là công cụ thu thập dữ liệu lớn mạnh nhất có thể thu thập dữ liệu lớn trên mạng xã hội như tin tức, RSS, Twitter, Facebook và Weibo, v.v.

8

< Sơ đồ khái niệm công cụ thu thập dữ liệu lớn >

Đặc điểm chính

 • Tích hợp nhiều chức năng thu thập dữ liệu lớn
  Nhiều chức năng thu thập khác nhau (thu tập dựa trên hệ thống tình huống giả định người sử dụng, RSS, web, deep web, mạng xã hội, API mở) được tạo ra cho nhiều loại hệ thống big data cả trong và ngoài theo nhu cầu của người dùng.

 

 • Công cụ hệ thống quy tắc biên tập (workbench) được xây dựng để đảm bảo hiệu suất trích xuất dữ liệu
  Thông qua hệ thống quy tắc chỉnh dựa trên quan sát tính khả dụng, công cụ này được tích hợp để có thể dễ dàng trích xuất và thu thập dữ liệu từ nhiều loại trang web động khác nhau như JS và AJAX.

 

 • Thu thập phân tán song song và hỗ trợ nhiều hệ điều hành khác nhau
  Công cụ có thể thu thập một lượng dữ liệu khổng lồ thông các quy tắc được thiết lập khác nhau một cách nhanh chóng hơn và đáng tin cậy hơn thông qua phương pháp song song phân tán, có thể được cài đặt và vận hành trong các hệ điều hành khác nhau (UNIX, Window, v.v.).

 

 • Chức năng mô phỏng thu thập và xem trước thu thập người dùng
  Để tối ưu hoá thuận tiện trong quá trình sử dụng của người dùng, công cụ này cung cấp chức năng kiểm tra chất lượng dữ liệu được thu thập thông qua việc mô phỏng trước quá trình thu thập dữ liệu sử dụng những quy tắc thu thập được khi xem trước dữ liệu người dùng.

 

 • Công cụ quản lý dễ dàng và thuận tiện
  Công cụ này cung cấp tính năng để người vận hành/người quản lý có thể dễ dàng và nhanh chóng kiểm tra trạng thái hiện tại thông qua bảng điều khiển tích hợp có thể theo dõi tình trạng chung của công cụ thu thập. Đồng thời, công cụ quản lý vận hành này cũng cung cấp tính năng theo dõi dữ liệu thu thập trong thời gian thực như là các chính sách thu thập theo nguồn dữ liệu hay cài đặt lịch hẹn trước cho từng nguồn dữ liệu/thu thập.

Chức năng chính và thông số kĩ thuật 

Để xử lý các loại thu thập dữ liệu bên trong và bên ngoài cần thiết cho phân tích hội tụ thông minh của big data có cấu trúc, công cụ thu thập Big data (Tornado) của Bigdata Suite cung cấp chức năng thu thập các tình huống giả định người dùng, thu thập dữ liệu dựa trên RSS, deepweb, meta search, mạng xã hội và thu thập cả OpenAPI. Các tác vụ thu thập do người quyết định có thể được thực hiện bằng cách kiểm tra xem công việc thu thập dữ liệu có hoạt động như dự định thông qua trình giả lập bên trong công cụ thu thập hay không. Trong quá trình vận hành thực tế, công cụ này cung cấp chức năng hẹn trước lịch, chức năng giám sát trạng thái vận hành có thể theo dõi kết quả thu thập trong thời gian thực và cả chức năng quản lí vận hành chung.

7

< Quy trình hoạt động của công cụ thu thập dữ liệu >

 • Chức năng thu thập mạng xã hội

Công cụ cung cấp chức năng hẹn lịch trước để có thể dễ dàng thu thập các loại dữ liệu xã hội khác nhau như Twitter, trang Facebook công khai và dòng thời gian trên Weibo và đặt chu kỳ thu thập cho mục tiêu thu thập cũng như chức năng xem lịch sử để kiểm tra trạng thái thu thập.

 • Chức năng thu thập dựa trên tình huống giả định

Dữ liệu về các mục tiêu được thu thập và trích xuất, dựa vào các giả định được tạo bởi người dùng từ các trang web khác nhau như tin tức, blog, trang web mua sắm và các trang chủ tương ứng, dữ liệu về các mục tiêu được thu thập và trích xuất. Công cụ này còn cung cấp chức năng hẹn lịch trước để đặt chu kỳ thu thập và chức năng xem lịch sử để kiểm tra trạng thái thu thập ngay cả trong công cụ workbench.

 • Chức năng thu thập Deepweb

Chức năng này cung cấp tính năng hẹn lịch trước bằng cách dễ dàng thu thập thông tin trong các trang web và đặt tần suất thu thập cho mục tiêu thu thập toàn bộ trang web URL hoặc lọc theo mẫu hoặc từ khoá URL và kiểm tra trạng thái thu thập bằng cách kiểm tra lịch sử thu thập.

 • Chức năng quản lý vận hành động cơ thu thập

① Chức năng quản lý vận hành – Chức năng bảng điều khiển theo dõi trạng thái
② Chức năng quản lý người dùng/người điều hành
③ Chức năng quản lý theo mục tiêu thu thập (dự án)

 • Chức năng thu thập RSS

Chức năng RSS có thể đọc bảng tin và không chỉ trích xuất dữ liệu trên bảng tin của đối tượng thu thập mà còn có thể liên kết với dữ liệu nguồn, đồng thời cũng cung cấp chức năng hẹn trước lịch để đặt chu kì thu thập và xem lịch sử để kiểm tra trạng thái thu thập trong công cụ workbench.

 • Chức năng thu thập API mở

Công cụ cung cấp chức năng lập kế hoạch để có thể dễ dàng thu thập các tài liệu và dữ liệu mở khác nhau như dữ liệu công khai trong và ngoài nước, dữ liệu công khai của chính quyền địa phương và đặt chu kỳ thu thập cho đối tượng thu thập và chức năng xem lịch sử thu thập để kiểm tra trạng thái thu thập.

 • Chức năng thu thập tìm kiếm siêu dữ liệu (metasearch)

Chức năng thu thập dựa trên việc tích hợp kết quả tìm kiếm thành một danh sách các từ khoá gửi đến người dùng những từ khoá tìm kiếm tới công cụ tìm kiếm như Google, Bing, Daum, Naver và Yahoo. Chức năng hẹn lịch trước cho phép người dùng dễ dàng thu thập và đặt chu kỳ thu thập cho các đối tượng thu thập. Ngoài ra, công cụ này cũng cung cấp chức năng xem lịch sử để kiểm tra trạng thái thu thập.

 Màn hình công cụ chính

1
2