Tìm Hiểu Về OpenCV - Viblo
Hôm nay mình có xem 1 đoạn video ngắn rất thú vị về Deep Learning CycleGAN Đây là video giới thiệu về CycleGAN. CycleGAN là thuật toán sử dụng Deep Learning để chuyển đổi bề mặt 2 hình ảnh mà vẫn giữ nguyên backgroung của khung hinh, như trong video chuyển từ ảnh ngựa thường sang ngựa vằn, v.v... CycleGAN áp dụng cho cả hình ảnh và video Mình xem video mục đích là để tìm hiểu về Deep Learning nhưng sau khi xem xong thì lại tò mò về cách chuyển ảnh ngựa thường sang ngựa vằn hơn :v, vì vậy đã đi google, có rất nhiều kết quả. Đầu tiên thì mình thử sử dụng PIL, kết quả khá tốt tuy vẫn còn lỗi và code thì quá là dài, sau đó có tham khải imagemagick nhưng do thích viết python hơn với cả đọc document cũng bảo là thời gian chạy lâu nên bỏ qua. Cuối cùng thì mình tìm ra opencv (trước chỉ nghe tên mà không biết để làm gì) thì thấy quả là vi diệu, code ngắn, độ chính xác cao hơn, thời gian chạy cũng ngắn. Trong bài viết này mình chỉ giới thiệu về bleding image Tuy nhiên nếu bạn xem xong video mà hứng thú về deep learning thì có thể tham khảo trên github, tác giả đã public toàn bộ sourcode được viết bằng Torch https://junyanz.github.io/CycleGAN/.
Giới thiệu về Opencv
1. Opencv là gì
OpenCV (Open Computer Vision) là một thư viện mã nguồn mở hàng đầu cho xử lý về thị giác máy tính, machine learning, xử lý ảnh. OpenCV đươc viết bằng C/C++, vì vậy có tốc độ tính toán rất nhanh, có thể sử dụng với các ứng dụng liên quan đến thời gian thực. Opencv có các interface cho C/C++, Python Java vì vậy hỗ trợ được cho Window, Linux, MacOs lẫn Android, iOS OpenCV có cộng đồng hơn 47 nghìn người dùng và số lượng download vượt quá 6 triệu lần
2. Ứng dụng
Opencv có rất nhiều ứng dụng:
- Nhận dạng ảnh
- Xử lý hình ảnh
- Phục hồi hình ảnh/video
- Thực tế ảo
- Các ứng dụng khác
3. Cài đặt
Mình cài đặt opencv cho python 2.7 trên ubuntu
sudo apt-get install python-matplotlib sudo apt-get install python-opencvPyramid
Pyramid, hoặc pyramid representation, là một dạng biểu diễn tín hiệu đa dạng được dùng trong computer vision, xử lý hình ảnh hoặc các xử lý tín hiệu. Trong đó, một tín hiệu hoặc một hình ảnh được lặp lại với các phương pháp smoothing và subsampling. Tên gọi pyramid biểu thị cho việc biểu diễn trong không gian và các phương pháp phân tích. Một image pyramid thực chất là một tập hợp các hình ảnh mà tất cả chúng đều phát sinh từ một hình ảnh ban đầu duy nhất, hình ảnh này được liên tục được lấy mẫu xuống cho tới khi đạt đến một điểm dừng mong muốn. Có hai loại image pỷamid ảnh phổ biến:
- Gaussian pyramid: Sử dụng để downsample hình ảnh tức là để giảm độ phân giải của hình ảnh
- Laplacian pyramid: Được sử dụng để tái tạo lại một hình ảnh được lấy mẫu từ một hình ảnh thấp hơn trong pyramid (có độ phân giải thấp hơn)
Gaussian pyramid
Gaussian pyramid là một tập các layer trong đó layer ở vị trí càng cao thì càng có kích thước nhỏ Mỗi layer được đánh số từ dưới lên trên, do đó, layer(i + 1) (được biểu thị là G(i + 1) nhỏ hơn layer i (G(i))
- Gắn lại G(i) thành một Gaussian kernel:
- Loại bỏ tất cả các hàng và cột số chẵn
Bạn có thể dễ dàng nhận thấy rằng hình ảnh kết quả sẽ chỉ chính xác bằng một phần tư ảnh trước đó. Lặp đi lặp lại quá trình nhiều lần với hình ảnh đầu vào G(0) (hình ảnh ban đầu) ta sẽ có một tập layer image pyramid.
Quá trình trên đã làm giảm độ chính xác của ảnh, vậy để tăng kích thước thì sao? Đầu tiên, ta tăng ma trận hình ảnh lên gấp đôi bản gốc trong mỗi chiều, với các hàng và cột mới đầy những số không (0). Sau đó, thực hiện các bước lặp với cùng một kernel ở trên.
Laplacian pyramid
Laplacian pyramid được tạo ra Gaussian pyramid. Nếu bạn mở một ảnh Laplacian pyramid thì nó là một ảnh chỉ có các đường viền bao ngoài các vật thể, đã xóa hết các phần khác. Hầu hết các phần tử trong ma trận là zeros. Laplacian pyramid thường được sử dụng trong nén hình ảnh. Một level (mức độ) Laplacian pyrmaid được hình thành bởi sự khác biệt giữa level đó trong Gaussian pyramid và level trên nó (layer đã được mở rộng) trong Gaussian pyramid.
Demo
Mình sẽ demo bằng một chương trình đơn giản blend 2 ảnh, Đầu vào, mình có 2 ảnh, một ảnh quả táo, 1 ảnh quả cam, yêu cầu đầu ra là blend 2 ảnh này với nhau để thành một ảnh, một nửa là quả táo, 1 nửa là quả cam
- Đầu tiên, ta cần load ảnh, lấy được các thông số (blue, green, red), đối với bước này thì mình dùng 2 function cv2.imread và cv2.
- Tiếp đến ta tính toán level của pyramid, ở đây mình đặt cho layer không lớn hơn 16x16
- Với mỗi thông số BGR, ta sẽ tạo ra một gaussian pyramid
ở đây trong funtion ireduce mình đã tạo ra một kernel là một ma trận 5x5 làm giảm độ phân giải của ảnh đi 1/2
- Với mỗi thông số ta lại tiếp tục tạo ra một laplacian pyramid
- Với mỗi thông số của 2 bức ảnh, ta blend các laplacian pyramid lại với nhau dựa trên một ảnh mask
- Cuối cùng ta cần tại tạo lại hình ảnh dự trên laplacian pyramid Dưới đây là kết quả của mình, với đầu vào là 2 ảnh code bạn có thể xem tại đây blending đoạn code này mình chạy trên ubuntu, python 2.7, ngoài opencv2 thì có import thêm scipy và numpy
Tham khảo
Để biết thêm về OpenCv bạn có thể tham khảo tại đây Homepage: http://opencv.org Docs: http://docs.opencv.org/master/ Q&A forum: http://answers.opencv.org Issue tracking: https://github.com/opencv/opencv/issues
Từ khóa » Hình ảnh Pyramid
-
1000+ Pyramid & ảnh Ai Cập Miễn Phí - Pixabay
-
40+ Pyramid Shape & ảnh Hình Dạng Miễn Phí - Pixabay
-
Tập Tin:Pyramid (en).png – Wikipedia Tiếng Việt
-
Spheres Pyramid Kết Xuất 3d Hình ảnh Sẵn Có - IStock
-
Ý Nghĩa Của Pyramid Trong Tiếng Anh - Cambridge Dictionary
-
Thêm Hình ảnh Về HTC Pyramid - VnExpress Số Hóa
-
Cách Tạo Biểu đồ Kim Tự Tháp Trong PowerPoint
-
Mô Hình Giấy Kiến Trúc Kim Tự Tháp Ai Cập Great Pyramid Of Khufu
-
Image Pyramid With Python - Tran Van Huy
-
Pyramid - Phép Tịnh Tiến Thành Tiếng Việt, Ví Dụ | Glosbe
-
Pyramid Scheme Là Gì Và Cấu Trúc Cụm Từ Pyramid Scheme Trong Câu ...