Data Science Cloud Service (DataMixi.com)
Data Science Cloud Service (Dịch vụ đám mây khoa học dữ liệu) – DataMixi là dịch vụ phân tích nhận thức giúp khám phá các mẫu ẩn giữa dữ liệu và dự đoán các xu hướng trong tương lai. Dịch vụ này giúp tổng hợp, phân tích chuyên sâu dữ liệu và trực quan hóa từ nhiều góc độ khác nhau, cùng với phân tích dữ liệu thông minh và trí tuệ nhân tạo. Đây là dịch vụ tư vấn khoa học dữ liệu được thiết kế cho các kỹ sư và các nhà phát triển IT muốn tích hợp dịch vụ phân tích dữ liệu dựa trên trí tuệ nhân tạo vào dự án dưới dạng tổng hợp (mashup).
Dịch vụ đám mây khoa học dữ liệu – DATAMIXI bao gồm dịch vụ khoa học dữ liệu, quản lý dữ liệu và phân tích nhận thức. Khoa học dữ liệu là một dịch vụ đám mây hỗ trợ toàn bộ quá trình từ thiết lập, phân tích, đến ứng dụng dữ liệu lớn. Quản lý dữ liệu là cấu trúc cho phép người xây dựng dữ liệu và hệ thống phần mềm, đặc trưng cho các quy trình thiết lập và phân tích dữ liệu của Saltlux, hợp tác với nhau. Dịch vụ phân tích nhận thức bao gồm dịch vụ phân tích xu hướng, phân tích cảm xúc, phân tích và trực quan hóa dựa trên bộ dữ liệu gồm hàng chục tỷ đơn vị thực thể.
Đặc điểm chính
DATAMIXI – Cổng thông tin khoa học dữ liệu duy nhất dành cho trí tuệ nhân tạo và các nhà khoa học dữ liệu tại Hàn Quốc, có khả năng khám phá các mô hình ẩn giữa các dữ liệu và dự đoán xu hướng trong tương lai. Cổng thông tin hoạt động bằng cách tích hợp, phân tích chuyên sâu dữ liệu và trực quan hóa từ các góc độ khác nhau thông qua phân tích nhận thức, kết hợp với phân tích dữ liệu và trí tuệ nhân tạo.
- Cộng đồng Big Data và AI duy nhất tại Hàn Quốc
Đây là cộng đồng Big Data và AI có các nhà khoa học dữ liệu duy nhất tại Hàn Quốc giúp người dùng có thể giao tiếp với các chuyên gia và nắm bắt được thông tin mới nhất. Các chuyên gia giỏi nhất trong từng lĩnh vực, bao gồm kiến trúc sư dữ liệu, kỹ sư dữ liệu và nhà khoa học dữ liệu hiện đều đang làm việc với DATAMIXI.
- Tận dụng nền tảng dữ liệu lớn thông minh với quy mô lớn nhất tại Hàn Quốc
Cho phép áp dụng nền tảng big data thông minh có quy mô lớn nhất Hàn Quốc, kết hợp với các giải pháp hiệu quả nhất trong từng lĩnh vực bao gồm thu thập, lưu trữ, Machine Learning và lập luận.
- Cung cấp dịch vụ xử lý dữ liệu tốt nhất thế giới
Cung cấp dịch vụ dữ liệu (Data as a Service) tốt nhất thế giới, cho phép máy đọc, học hỏi và hiểu ý nghĩa thông qua công nghệ thu thập dữ liệu TORNADO, cùng với sự hỗ trợ của trung tâm giám định chuyên nghiệp nội bộ trong nước và quốc tế và trung tâm nghiên cứu AI.
- Sử dụng công nghệ phân tích Big Data thông qua Open API thông minh
Cung cấp dịch vụ tốt nhất dựa trên công nghệ của Saltlux với 20 năm kinh nghiệm trong lĩnh vực trí tuệ nhân tạo, từ big data cho đến machine learning và lý luận quy mô lớn. Người dùng có thể sử dụng các dịch vụ phân tích tích hợp dữ liệu lớn và công nghệ AI khác nhau cho các thử nghiệm và dịch vụ.
- Cung cấp dữ liệu có quy mô lớn nhất châu Á
Bên cạnh dữ liệu xã hội, dữ liệu mở, dữ liệu liên kết và dữ liệu theo thời gian thực, người dùng có thể sử dụng big data ngay lập tức để phân tích các từ điển khác nhau theo miền.
- Cung cấp miễn phí dịch vụ phân tích nhận thức thông minh
Cung cấp dịch vụ phân tích nhận thức AI với khoảng 20 tỷ dữ kiện xã hội miễn phí. Dịch vụ này cho phép khám phá các mô hình ẩn giữa các dữ liệu và dự đoán xu hướng tương lai bằng cách tích hợp, phân tích chuyên sâu dữ liệu và trực quan hóa từ nhiều góc độ khác nhau. Ngoài ra còn cung cấp dịch vụ cá nhân hóa cao cấp nhằm đáp ứng yêu cầu của khách hàng và cung cấp kết quả như một dịch vụ tư vấn thu thập và phân tích cá nhân hóa hoàn chỉnh.
Dịch vụ chính
Dịch vụ khoa học dữ liệu
Dịch vụ khoa học dữ liệu của Saltlux là dịch vụ tư vấn và giáo dục cung cấp kiến thức IT và đào tạo kỹ thuật cho toàn bộ quy trình dịch vụ thực tế. Dịch vụ này bao gồm thu thập và tinh chế dữ liệu, phân tích nhận thức và Machine Learning được tích lũy trong 20 năm qua, quá trình tối ưu hóa các mô hình Machine Learning, phân tích, đánh giá và trực quan hóa dự đoán, kết quả thông minh.
Dịch vụ khoa học dữ liệu của DATAMIXI tích hợp kỹ thuật máy tính, thống kê toán học, thuật toán Machine Learning và phương pháp mô hình hóa kiến thức miền thông qua mô hình xoắn ốc kép của Saltlux. Từ đó tạo nên sự phát triển của dịch vụ tri thức dựa trên trí tuệ nhân tạo như dịch vụ phân tích dữ liệu lớn thông minh, dịch vụ hỏi đáp hoặc đối thoại.
Sự hợp tác tích cực giữa con người và máy móc (human-in-the-loop) là rất cần thiết để phân tích chuyên sâu dữ liệu và dịch vụ thông minh. Hệ thống khoa học dữ liệu của DATAMIX dựa trên phương pháp mô hình xoắn ốc kép (dual spiral methodology).
Đối với các quy trình khoa học dữ liệu điển hình, việc thu thập và tinh chế dữ liệu sử dụng phương pháp xoắn ốc kép của Saltlux cho đến lựa chọn, tối ưu hóa Machine Learning và mô hình phân tích, đánh giá và trực quan hóa các dự đoán và kết quả thông minh được thực hiện lặp đi lặp lại.
① Giai đoạn phân tích yêu cầu
Đây là giai đoạn xác định các dữ liệu cần thiết cho việc phân tích. Phương hướng được xác định thông qua quá trình kết luận mục tiêu phân tích thông minh, cùng với việc phân tích và hiểu các vấn đề cốt lõi trong phân tích dữ liệu theo yêu cầu của khách hàng.
② Giai đoạn quản lý dữ liệu
Khó khăn lớn nhất trong việc phân tích chuyên sâu và học máy là tinh chế big data, bao gồm các lỗi sai và thiếu dữ liệu học tập. Quản lý dữ liệu là bước thu thập nguồn tài nguyên dữ liệu được xác định ở bước yêu cầu, sàng lọc dữ liệu để đáp ứng các mục tiêu phân tích và thông minh hóa, đồng thời tạo dữ liệu để phân tích và học tập thông qua quá trình tinh chế.
③ Giai đoạn phân tích và học tập dữ liệu
Đây là giai đoạn thực hiện phân tích thống kê và chuyên sâu dữ liệu, áp dụng nhiều công nghệ Machine Learning khác nhau (CRF, SVM) và công nghệ Deep Learning mạng lưới chuyên sâu (CNN, RNN). Đây là giai đoạn thực hiện học máy dữ liệu quy mô lớn, dự đoán và phân tích chuyên sâu Deep Learning, tận dụng nền tảng phân tích thông minh tích hợp các công cụ phân tích của Saltlux và tài nguyên mở (R, TensorFlow). Từ đó thu được kết quả phân tích tối ưu, đáp ứng yêu cầu của khách hàng thông qua xác minh mô hình, đánh giá, điều chỉnh thông số mô hình và thay đổi thuật toán học tập.
④ Giai đoạn kiểm chứng phân tích dữ liệu và phản hồi
Đây là giai đoạn phát hiện kiến thức, mô hình và ngoại lệ từ kết quả phân tích hoặc nhận đánh giá, kiểm chứng từ kết quả phân tích học tập và dự đoán thông qua phản hồi của chuyên gia nội bộ/bên ngoài hoặc khách hàng trước khi đưa ra kết quả phân tích cuối cùng.
⑤ Giai đoạn báo cáo phân tích dữ liệu cuối cùng
Ở giai đoạn này sẽ nhận được báo cáo phân tích dữ liệu đáp ứng yêu cầu của khách hàng, giúp cho việc phân tích và sử dụng dữ liệu trở thành sức cạnh tranh mới cho các cá nhân và tổ chức.
Dịch vụ quản lý dữ liệu
Dịch vụ bao gồm tất cả các hoạt động nhằm nâng cao giá trị tận dụng của dữ liệu, ví dụ như gắn thẻ thông tin meta (chú thích), phân loại và tạo dữ liệu học tập cho việc thu thập và tinh chế dữ liệu. Đối với phân tích chuyên sâu dữ liệu và Machine Learning, dữ liệu quy mô lớn phải được bảo mật và xử lý ở dạng máy móc có thể đọc, học hỏi và hiểu ngữ nghĩa. Với 20 năm kinh nghiệm trong quản lý chất lượng dữ liệu và học máy, chúng tôi có khả năng cung cấp dịch vụ quản lý dữ liệu tốt nhất thế giới.
① Quy trình dịch vụ quản lý dữ liệu
6 giai đoạn quản lý dữ liệu được áp dụng chung cho tất cả các miền. Trong từng giai đoạn, nhóm các chuyên gia phối hợp một cách có hệ thống để xây dựng dịch vụ tri thức cho khách hàng.
② Chức năng của dịch vụ quản lý dữ liệu
Quản lý dữ liệu bao gồm tất cả các hoạt động giúp nâng cao giá trị sử dụng dữ liệu. Ngoài các lĩnh vực xử lý dữ liệu chung (kỹ thuật số hóa dữ liệu sách, thu thập thông tin thô, tinh chế dữ liệu), các dịch vụ quản lý dữ liệu chuyên môn như chú thích hình ảnh và video, chú thích dữ liệu R&D và thiết lập cơ sở tri thức cũng được cung cấp như sau:
Dịch vụ phân tích nhận thức thông minh
Dịch vụ phân tích nhận thức thông minh của Saltlux cung cấp miễn phí chức năng phân tích nhận thức chuyên sâu thông qua phân tích tổng hợp, phân tích chủ đề liên quan, phân tích cảm xúc, phân tích xu hướng, phát hiện vấn đề, liên kết R thời gian thực sử dụng hơn 10 tỷ dữ liệu xã hội. Chức năng phân tích nhận thức thông minh các mạng quan hệ ngữ nghĩa bên trong dữ liệu cũng được cung cấp miễn phí.
1) Chức năng dữ liệu cho phép trực tiếp tải lên, đăng kí và sử dụng dữ liệu cá nhân và dữ liệu công khai từ dịch vụ dữ liệu.
2) Chức năng hợp nhất dữ liệu cho phép tạo dữ liệu tối ưu hóa cho quá trình phân tích bằng cách lựa chọn và tổng hợp những yếu tố mong muốn từ hai tệp trở lên.
3) Chức năng tạo widget cho phép áp dụng các biểu đồ khác nhau và tạo widget, thông qua phân tích thông minh về đối tượng quan tâm, sử dụng dữ liệu xã hội được cung cấp.
4) Chức năng tạo dashboard cho phép tạo dashboard cá nhân bằng cách đặt các widget vào vị trí mong muốn bằng phương pháp kéo thả.
5) Chức năng chia sẻ và xuất bản web cho phép chia sẻ dashboard được tạo từ góc nhìn khác nhau qua thư viện hoặc SNS.
① Chức năng My Data
Chức năng My Data là dịch vụ phân tích nhận thức cho phép xử lý, lưu trữ và đăng ký khoảng hơn 100 dữ liệu xã hội do Saltlux cung cấp, 340.000 dữ liệu mở hoặc dữ liệu người dùng theo nhu cầu dưới dạng tệp CSV hoặc Excel.
② Chức năng phân tích widget
Chức năng phân tích widget thực hiện phân tích nhận thức thông minh bằng cách sử dụng hơn 100 dữ liệu xã hội, 340.000 dữ liệu mở do Saltlux cung cấp, hoặc dữ liệu người dùng theo yêu cầu. Chức năng này cho phép ứng dụng kết quả phân tích vào các biểu đồ khác nhau để tạo chủ đề phân tích người dùng hoặc widget. Chức năng này có thể được chia thành chức năng phân tích nhận thức sử dụng big data xã hội và chức năng phân tích nhận thức sử dụng My Data. Đồng thời cũng có thể phân tích xu hướng, phân tích từ khóa liên quan, phân tích cảm xúc dựa trên chức năng phân tích nhận thức chi tiết.
③ Bảng thông báo người dùng và chức năng thư viện
Chức năng này cho phép lưu trữ widget kết quả nhận thức người dùng trong thư viện widget phân tích và tạo dashboard từ widget đó. Dashboard đã tạo có thể được lưu trữ và đăng ký trong thư viện dashboard của người dùng. Người dùng có thể chia sẻ dashboard với người dùng khác và tải xuống theo lựa chọn cá nhân.
Dịch vụ chức năng xử lý dữ liệu và Machine Learning – Dataiku
Là nền tảng big data thông minh dựa trên dữ liệu tập trung, dịch vụ này tận dụng chức năng phân tích để đảm bảo rằng doanh nghiệp duy trì mối quan hệ chặt chẽ với hoạt động của công ty, không chỉ ở bước lưu trữ dữ liệu. Đồng thời hỗ trợ bước mô hình hóa dữ liệu thông qua Machine Learning và ứng dụng dữ liệu đó vào hoạt động của công ty.
① Chức năng kiểm tra dữ liệu
Tạo báo cáo tự động cho các bộ dữ liệu và chỉ ra các vấn đề về chất lượng dữ liệu còn tồn đọng. Người dùng có thể tạo dữ liệu đơn, thống kê đa biến và báo cáo kiểm toán tập hợp dữ liệu chi tiết. Tinh lọc và tìm kiếm dữ liệu dễ dàng như trong Excel. Không chỉ thể, người dùng có thể có được thông tin chi tiết bằng cách mở rộng phạm vị phân tích qua việc thực thi trên các công nghệ Spark, Hadoop hoặc SQL.
② Chức năng tiền xử lý dữ liệu và chuyển đổi trực quan
Người dùng có thể dễ dàng truy cập hơn 80 bộ xử lý hình ảnh để ngăn chặn tranh luận dữ liệu không mã hóa. Đồng thời có thể tự động chuyển đổi ngữ cảnh được đề xuất và thực hiện nhiều thao tác trên dữ liệu.
③ Chức năng học máy
Chức năng này cho phép tự động thiết kế, tạo mới và lựa chọn để sử dụng tất cả các loại mô hình dữ liệu. Tham số siêu mô hình được tối ưu hóa bằng cách sử dụng các chiến lược kiểm tra tính xác thực chéo khác nhau. Người dùng có thể ngay lập tức thu được thông tin chi tiết từ mô hình (tầm quan trọng của biến, tương tác hoặc đặc điểm của tham số) và đánh giá tính năng mô hình thông qua số liệu chi tiết.
④ Chức năng phân phối mô hình dựa trên học máy
Các nhà phân tích và nhà khoa học dữ liệu có thể phân phối các mô hình vào quá trình sản xuất chỉ bằng vài cú nhấp chuột. Hình thành một đường dẫn điểm bằng cách thực hiện các thao tác dọn dẹp, phong phú hóa và tiền xử lý dữ liệu. Các phiên bản của mô hình phân phối được quản lý chặt chẽ, cho phép người dùng phân phối phân phiên bản mới, so sánh và đối chiếu lại bất cứ lúc nào.
⑤ Chức năng quản lý thông tin tạo dữ liệu
Mô hình phân phối bao gồm tất cả các bước cần thiết cho quá trình tạo dữ liệu 1) Phát triển mô hình tạo dữ liệu (workflow), 2) Mô hình và thử nghiệm dữ liệu sản xuất, 3) Nguyên mẫu dữ liệu (kiểm chứng trước khi sản xuất), 4) Thương mại hóa dữ liệu (Đóng gói mô hình tạo và dữ liệu cho sản xuất dữ liệu trong mô hình UI).
Khả năng cạnh tranh nổi bật
- Phân tích dữ liệu – Trực quan hóa phân tích
Người dùng có thể thu được thông tin chi tiết thông qua phân tích mạng lưới tác giả, văn bản tương tự, công nghệ cốt lõi, từ khóa và công nghệ liên quan, phân tích phức hợp giữa các công nghệ khác nhau, phân tích nhận thức và phân tích chuyên sâu. Đồng thời xác định hiện trạng công nghệ và R&D của đối thủ cạnh tranh, tóm tắt thông tin chính sách của chính phủ trong lĩnh vực R&D, cảm biến công nghệ mới và giám sát xu hướng trong lĩnh vực R&D.
- Quản lý dữ liệu – Chuyển đổi dữ liệu thông minh
Quản lý dữ liệu bao gồm tất cả các hoạt động nhằm nâng cao giá trị sử dụng dữ liệu như chú thích, phân loại, tạo dữ liệu học tập trong việc thu thập và tinh chế dữ liệu. Để có thể phân tích chuyên sâu dữ liệu và Machine Learning, cần bảo mật và xử lý dữ liệu quy mô lớn ở dạng mà máy có thể đọc (readable), học hỏi (learnable) và hiểu ý nghĩa (Understandable).
- Cung cấp dịch vụ nền tảng khoa học dữ liệu duy nhất tại Hàn Quốc – Science Total Service
Hỗ trợ tất cả các nghiệp vụ để thu lại thông tin chi tiết hoặc triển khai hệ thống thông minh hóa bằng cách áp dụng thu thập, quản lý dữ liệu, phân tích thống kê và machine learning. Dù là những người chưa có kinh nghiệm về công nghệ cũng có thể phân tích dữ liệu thông qua sản phẩm này.
- Machine Learning, AI – Dự đoán thực nghiệm và kết quả nghiên cứu
Khi dữ liệu nghiên cứu nội bộ và dữ liệu thí nghiệm (đồ thị/bảng/hình ảnh/công thức hóa học từ tài liệu bên ngoài) được chuẩn bị chọn lọc (trích xuất, tinh chế và xử lý), người dùng có thể nhanh chóng nhận được kết quả bằng cách thực hiện gián tiếp thí nghiệm nghiên cứu thông qua chức năng ML có sử dụng dữ liệu đó.
- Hoàn thành thu thập dữ liệu nội bộ và dữ liệu bên ngoài – Ngân hàng dữ liệu
Cho phép thu thập, chia sẻ và tái sử dụng dữ liệu nghiên cứu phân tán nội bộ. Người dùng có thể thu thập và nội bộ hóa các dữ liệu phi cấu trúc khác nhau như tài liệu, bằng sáng chế và tài liệu kỹ thuật bên ngoài. Nhúng các chức năng thu thập lớn nhất (6 loại) trong số các công cụ thu thập ở Hàn Quốc và nước ngoài, đảm bảo hiệu suất tốt nhất bằng cách áp dụng công nghệ thu thập và xử lý dữ liệu trong thời gian thực.