Skip links

CÔNG CỤ NHẬN DẠNG HÌNH ẢNH

Công cụ nhận dạng hình ảnh

Công cụ nhận dạng hình ảnh của AI Suite của Saltlux có chức năng nhận dạng các đối tượng ở dạng ảnh và phân loại dựa trên các kết quả được công nhận. Công cụ nhận dạng hình ảnh hỗ trợ các ứng dụng trong tương lai như tìm kiếm dựa trên hình ảnh, phụ đề video, công nghệ lái tự động, và hỏi đáp trực quan hoá. Saltlux dự định tích hợp các lớp công nghệ để nâng cấp công cụ này từ mức độ chỉ hiểu được hình ảnh cơ bản đến mức có thể hiểu được ý nghĩa của các bối cảnh trong ảnh (bảng dưới đây).

ai26

< Các lớp công nghệ công cụ nhận dạng hình ảnh >

Các đặc điểm chính

  • Thông hiểu hình ảnh chi tiết và sâu sắc hơn sử dụng biểu đồ tri thức

Trong quá trình xử lý, công cụ sử dụng biểu đồ tri thức để hiểu ý nghĩa của hình ảnh thông qua nhận diện đối tượng. Khác với các giải pháp nhận diện hình ảnh hiện nay vốn chỉ gắn thẻ từ ngữ hoặc câu để hiểu hình ảnh, công cụ này có thể liên kết với biểu đồ tri thức dựa trên ngữ nghĩa nhằm cung cấp khả năng hiểu hình ảnh chi tiết và chính xác hơn.

  • Thông hiểu hình ảnh theo từng lĩnh vực

Tiêu chí để diễn giải kiến thức có thể khác nhau tùy thuộc vào kiến ​​thức của từng nghiệp vụ. Công cụ nhận dạng hình ảnh dựa trên biểu đồ tri thức có thể liên kết với từng biểu đồ tri thức được xây dựng cho các nghiệp vụ khác nhau, từ đó đưa ra kết quả phân tích hình ảnh cụ thể cho từng kiến thức nghiệp vụ.

Các tính năng chính và thông số kỹ thuật

Công cụ nhận dạng hình ảnh có chức năng phát hiện tình huống bằng cách xử lý hình ảnh nhận được qua camera trong thời gian thực và cung cấp thông tin được nhận dạng cho ứng dụng. Trong trường hợp này, công cụ có thể bao gồm một mô-đun phân tích trực quan để phân tích các thông tin khác nhau trong hình ảnh và một mô-đun hiểu trực quan để nhận dạng tình huống dựa trên dữ liệu phân tích.

45

< Sơ đồ cấu tạo công cụ nhận diện hình ảnh >

  • Phân đoạn ngữ nghĩa (Semantic Segmentation)

Cùng sự phát triển của công nghệ nhận diện hình ảnh để phân tích ảnh và nhận dạng đối tượng, công nghệ nhận diện đối tượng nhằm xác định vị trí của đối tượng cũng đang được phát triển. Phân đoạn ngữ nghĩa là tính năng giúp xác định các điểm trong ảnh thuộc đối tượng nào. Tính năng này được sử dụng để xác định ranh giới (đường ranh giới) của từng đối tượng trong phạm vi chính xác.

ai28

<Ví dụ về nhận dạng đối tượng và phân chia đối tượng>

  • Phán đoán cử chỉ, điệu bộ

Đây là tính năng giúp nhận diện các khớp nối chính của con người như đầu, cổ, vai, đầu gối, ước tính vị trí của các khớp đó và phát hiện tư thế hoạt động của vật thể được quan sát. Đây là kỹ thuật nhằm phán đoán cử chỉ, điệu bộ.

ai29

< Ví dụ về Pose Estimation >

  • Nhận dạng cử chỉ tay (Hand Gesture Recognition)

Nhận dạng cử chỉ tay giúp trích xuất và phát hiện các cử chỉ có ý nghĩa từ các nguồn thông tin như video và chuyển động của đối tượng trong hình ảnh chụp bằng máy ảnh. Thông thường, nhận dạng cử chỉ tay sẽ phân tích các cử chi của bàn tay để nhận dạng phạm trù cụ thể của cử chỉ tay. Nhận dạng cử chỉ giúp phát hiện chuyển động của tay dưới dạng nhấp chuột, kéo trang, v.v… để diễn giải ý nghĩa mà không cần nhập liệu trực tiếp.

ai30

< Ví dụ về nhận dạng cử chỉ tay >

  • Phát hiện đặc điểm khuôn mặt (Face Landmark Detection)

Khai thác đặc điểm khuôn mặt là tính năng giúp phát hiện và theo dõi các đặc điểm nhận dạng chính trên khuôn mặt (mắt, mũi, miệng, khung xương hàm, lông mày,…). Chức năng này cho phép chỉnh sửa những điểm bị biến dạng trên khuôn mặt cứng nhắc và không cứng nhắc do chuyển động của đầu và biểu cảm khuôn mặt, từ đó nhận dạng đúng biểu cảm trên khuôn mặt.

ai31

< Ví dụ về phát hiện đặc điểm khuôn mặt >

  • Phân loại nhóm tuổi/giới tính (Age-Group/Gender Classification)

Đây là chức năng giúp nhận diện khuôn mặt của một người từ một hình ảnh, sau đó phân loại và ước tính độ tuổi hoặc giới tính của người đó. Ngoài ra, những thông tin khác như biểu cảm trên khuôn mặt, trạng thái cảm xúc và chủng tộc cũng có thể được xác định.

ai32

< Ví dụ về phân loại nhóm tuổi/ giới tính >

  • Nhận dạng và xác minh khuôn mặt (Face Recognition and Verification)

Tính năng này cung cấp khả năng xác định một người thông qua nhận dạng khuôn mặt. Nhận dạng khuôn mặt giúp nhận dạng khuôn mặt của một người trong ảnh, xác định xem ai là người có khuôn mặt đó bằng cách so sánh với dữ liệu về khuôn mặt đã đăng ký trước đó.

ai33

< Ví dụ về nhận dạng và xác minh khuôn mặt >

Xác minh khuôn mặt là tính năng giúp kiểm chứng xem một khuôn mặt có đặc điểm nhận dạng khớp với khuôn mặt tìm thấy trong ảnh hay không. Như trong hình Dnl, do có nhiều sai sót trong quá trình nhận diện khuôn mặt, nên công cụ xác minh khuôn mặt được sử dụng trong bước xử lý hậu kỳ để sửa các lỗi đó.

  • Thông hiểu hình ảnh

Công cụ nhận dạng hình ảnh bao gồm quy trình sử dụng biểu đồ tri thức để hiểu ý nghĩa của hình ảnh được nhận dạng. Ngoài các dữ kiện chung, công cụ còn có khả năng cung cấp kết quả thông hiểu hình ảnh chuyên biệt mà có thể được diễn giải khác đi dựa vào kiến thức về nghiệp vụ.

① Đồ thị kiến ​​thức cho sự kiện

Đây là phương pháp trình bày thông tin thông qua bộ ba bằng cách kết hợp hiện trạng hai đối tượng đã xác định và quan hệ của chúng. Dự án Visual Genome dẫn dắt bởi Đại học Stanford ở Hoa Kỳ cũng đang xây dựng một bộ dữ liệu bao gồm thông tin chi tiết thu thập được bằng cách phân tích ảnh dưới dạng KG. Mô-đun thông hiểu hình ảnh của công cụ nhận dạng hình ảnh sử dụng KG cho các dữ kiện đã biết để đưa ra các kết quả phân tích khác nhau thu được từ mô-đun phân tích hình ảnh.

② Sơ đồ tri thức cho kiến ​​thức miền

Để hiểu rõ hơn về tình huống thông qua hình ảnh, cần phải xem xét không chỉ dữ kiện mà cả các thông tin khác nhau liên quan đến đối tượng. Cụ thể hơn, trong một ứng dụng, kiến ​​thức nghiệp vụ liên quan đến đối tượng đóng vai trò quan trọng để có thể hiểu đựợc cụ thể từng lĩnh vực tương ứng. Trong mô đun thông hiểu hình ảnh, tri ​​thức trong một nghiệp vụ cụ thể được biểu thị dưới dạng KG cho từng miền và có thể kết hợp với KG để cung cấp dữ kiện trong từng dịch vụ ứng dụng.

Chức năng chính

Những chức năng của công cụ nhận dạng hình ảnh được giới thiệu ở trên đều đang được nghiên cứu và phát triển liên tục. Trạng thái hiện đại của công cụ (SOTA) tính nên nay được thể hiện như trong bảng dưới đây.

46

<Thông số kỹ thuật theo từng chức năng nhận dạng hình ảnh>

This website uses cookies to improve your web experience.