Bài toán phát hiện biển số xe máy Việt Nam | Deep Learning cơ bản
 

Bài toán phát hiện biển số xe máy Việt Nam

| Posted in Deep Learning cơ bản

Lời mở đầu

Bài toán nhận diện biển số xe Việt Nam là một bài toán không còn mới, đã được phát triển dựa trên các phương pháp xử lý ảnh truyền thống và cả những kỹ thuật mới sử dụng Deep Learning. Trong bài toán này mình chỉ phát triển bài toán phát hiện biển số (một phần trong bài toán nhận diện biển số) dựa trên thuật toán YOLO-Tinyv4 với mục đích:

  • Hướng dẫn chuẩn bị dữ liệu cho bài toán Object Detection.
  • Hướng dẫn huấn luyện YOLO-TinyV4 dùng darknet trên Google Colab.

Chuẩn bị dữ liệu

Đánh giá bộ dữ liệu

Trong bài viết mình sử dụng bộ dữ liệu biển số xe máy Việt Nam chứa 1750 ảnh, bạn đọc có thể tải tại đây.

Ảnh biển số trong bộ dữ liệu

Ảnh biển số xe được trong bộ dữ liệu được chụp từ một camera tại vị trí kiểm soát xe ra vào trong hầm. Do vậy:

  • Kích thước các biển số xe không có sự đa dạng, do khoảng cách từ camera đến biển số xe xấp xỉ gần bằng nhau giữa các ảnh.
  • Ảnh có độ sáng thấp và gần giống nhau do ảnh được chụp trong hầm chung cư.

=> Cần làm đa dạng bộ dữ liệu.

Các phương pháp tăng sự đa dạng của bộ dữ liệu

Đa dạng kích thước của biển số

Đa dạng kích thước bằng 2 cách:

  • Cách 1: Thu nhỏ kích thước biển bằng cách thêm biên kích thước ngẫu nhiên vào ảnh gốc, sau đó resize ảnh bằng kích thước ảnh ban đầu.
  • Cách 2: Crop ảnh chứa biển số với kích thước ngẫu nhiên, sau đó resize ảnh bằng kích thước ảnh ban đầu.
# Cách1
def add_boder(image_path, output_path, low, high):
    """
    low: kích thước biên thấp nhất (pixel)
    hight: kích thước biên lớn nhất (pixel)
    """
    # random các kích thước biên trong khoảng (low, high)
    top = random.randint(low, high)
    bottom = random.randint(low, high)
    left = random.randint(low, high)
    right = random.randint(low, high)
    
    image = cv2.imread(image_path)
    original_width, original_height = image.shape[1], image.shape[0]
    
    #sử dụng hàm của opencv để thêm biên
    image = cv2.copyMakeBorder(image, top, bottom, left, right, cv2.BORDER_REPLICATE)
    
    #sau đó resize ảnh bằng kích thước ban đầu của ảnh
    image = cv2.resize(image, (original_width, original_height))
    cv2.imwrite(output_path, image)
Ảnh thu được (bên phải) sau khi chạy hàm trên
# Cách2
def random_crop(image_path, out_path):
    image = cv2.imread(image_path)
    
    original_width, original_height = image.shape[1], image.shape[0]
    x_center,y_center = original_height//2, original_width//2
    
    x_left = random.randint(0, x_center//2)
    x_right = random.randint(original_width-x_center//2, original_width)
    
    y_top = random.randint(0, y_center//2)
    y_bottom = random.randint(original_height-y_center//2, original_width)
    
    # crop ra vùng ảnh với kích thước ngẫu nhiên
    cropped_image = image[y_top:y_bottom, x_left:x_right]
    # resize ảnh bằng kích thước ảnh ban đầu 
    cropped_image = cv2.resize(cropped_image, (original_width, original_height))
    cv2.imwrite(out_path, cropped_image)
Ảnh thu được (bên phải) sau khi chạy hàm trên

Thay đổi độ sáng của ảnh

def change_brightness(image_path, output_path, value):
    """
    value: độ sáng thay đổi
    """
    img=cv2.imread(image_path)
    hsv = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)
    h, s, v = cv2.split(hsv)
    v = cv2.add(v, value)
    v[v > 255] = 255
    v[v < 0] = 0
    
    final_hsv = cv2.merge((h, s, v))
    img = cv2.cvtColor(final_hsv, cv2.COLOR_HSV2BGR)
    
    cv2.imwrite(output_path, img)
Độ sáng thay đổi (bên phải)

Xoay ảnh

import imutils
def rotate_image(image_path, range_angle, output_path):
    """
    range_angle: Khoảng góc quay
    """
    image = cv2.imread(image_path)
    #lựa chọn ngẫu nhiên góc quay 
    angle = random.randint(-range_angle, range_angle)
    
    img_rot = imutils.rotate(image, angle)
    cv2.imwrite(output_path, img_rot)
Ảnh được xoay (bên phải)

Gán nhãn dữ liệu

Tool gán nhãn ở đây mình dùng là labelImg, bạn đọc có thể tải và đọc hướng dẫn sử dụng tại đây.

Xác định vùng biển chứa biển số

LabelImg hỗ trợ gán nhãn trên cả 2 định dạng PASCAL VOC và YOLO với phần mở rộng file annotation tương ứng là .xml và .txt.

Trong bài toán sử dụng mô hình YOLO, mình lưu file annotation dưới dạng .txt.

Nội dung trong một file annotation

Mỗi dòng trong một file annotation bao gồm: <object-class> <x> <y> <width> <height>.

Trong đó: <x> <y> <width> <height> tương ứng là tọa độ trung tâm và kích thước của đối tượng. Các giá trị này đã được chuẩn hóa lại, do vậy giá trị luôn nằm trong đoạn [0,1]. object-class là chỉ số đánh dấu các classes.

Lưu ý: Với bài toán có nhiều nhãn, nhiều người cùng gán nhãn thì cần thống nhất với nhau trước về thứ tự nhãn. Nguyên nhân do trong file annotation chỉ lưu chỉ số (0,1,3,4,…) của nhãn chứ không lưu tên nhãn.

Sau khi gán nhãn xong các bạn để file annotation và ảnh tương ứng vào cùng một thư mục.

Huấn luyện mô hình

Giới thiệu về YOLO-Tinyv4 và darknet

YOLO-Tinyv4

YOLOv4 là thuật toán Object Detection, mới được công bố trong thời gian gần đây với sự cải thiện về kết quả đáng kể so với YOLOv3.

Sự cải thiện của YOLOv4, nguồn.

YOLOv4 cho kết quả real-time khi chạy trên các nền tảng GPU cao cấp. Với mục đích trade-off giữa độ chính xác và tốc độ để có thể chạy trên các nền tảng CPU và GPU thấp hơn thì YOLO-Tinyv4 được ra đời.

YOLOv4 với YOLO-Tinyv4, nguồn.
YOLO-Tinyv4 trên các nền tảng, nguồn.

Darknet

Darknet là một framework open source chuyên về Object Detection được viết bằng ngôn ngữ C và CUDA. Darknet dùng để huấn luyện các mô hình YOLO một cách nhanh chóng, dễ sử dụng.

Cấu hình darknet

Việc cấu hình trực tiếp trên Google Colab tương đối khó khăn với những bạn chưa quen làm việc với linux, bên cạnh đó vấn đề delay kết nối giữa Google Colab với drive trong một số trường hợp. Vì vậy mình sẽ hướng dẫn các bạn cấu hình trên máy cá nhân, xong nén thành file .zip, sau đó đẩy lên Google Drive.

Việc cấu hình trải qua các bước:

Bước 1: Clone darknet về máy.

Nội dung trong thư mục vừa clone về

Bước 2: Sửa file Makefile trong thư mục vừa clone về

Sửa một vài dòng đầu trong file.

Trong trường hợp huấn luyện mô hình trên GPU có TensorCores thì bạn đọc có thể sửa “CUDNN_HALF=1” để tăng tốc độ huấn luyện . Trên Google Colab có hỗ trợ GPU Tesla T4, là GPU có kiến trúc mới nhất trên Colab và có TensorCores. Vì vậy, trong trường hợp chắc chắn sẽ có được GPU Tesla T4 thì bạn đọc có thể sửa “CUDNN_HALF=1”.

Bước 3: Tạo file yolo-tinyv4-obj.cfg.

Tạo file yolo-tinyv4-obg.cfg với nội dung tương tự file yolov4-tiny.cfg trong thư mục darknet/cfg, sau đó chỉnh sử một số dòng:

  • Dòng 6: Thay đổi batch=64. Nghĩa là: batch = số ảnh (cả file annotation) được đưa vào huấn luyện trong một batch.
  • Dòng 7: Thay đổi subdivisions=16. Trong một batch được chia thành nhiều block, mỗi block chứa batch/subdivisions ảnh được đưa vào GPU xử lý tại một thời điểm. Weights của mô hình được update sau mỗi batch.
  • Dòng 20: Thay đổi max_batches=classes2000, không nhỏ hơn số ảnh trong tập huấn luyện, và không nhỏ hơn 6000 (theo đây}). VD: max_batches=6000.
  • Dòng 22: Thay đổi steps= 80%, 90% max_batches. VD: steps=4800,5400. Sau khi huấn luyện được 80%, 90% max_batches, learning_rate sẽ được nhân với một tỷ lệ (dòng 23 trong file), mặc định là 0.1.
  • Thay đổi classes=1 trong mỗi layer [yolo], dòng 217, 266.
  • Thay đổi filters trong mỗi layer [convolutional] trước layer [yolo] theo công thức filters=(số class+5)*3. Trong bài toán này filters=18.

Chi tiết ý nghĩa của các tham số trong file cfg, bạn đọc có thể xem tại đây.

Bước 4: Tạo file obj.names chứa tên của các class, sau đó lưu trong thư mục darknet/data.

Nội dung file obj.names

Bước 5: Tạo file obj.data, sau đó lưu trong thư mục darknet/data.

Nội dung file obj.data

Bước 6: Đưa toàn bộ thư mục chứa ảnh và file annotation ở trên vào thư mục darknet/data.

Bước 7: Download pre-trained weights của YOLO-Tinyv4 tại đây, lưu trong thư mục darknet.

Bước 8: Nén thư mục darknet thành file darknet.zip, sau đó đưa lên Google Drive.

Huấn luyện model trên colab

Để thực thi các lệnh command line trong colab sử dụng thêm ! trước mỗi câu lệnh.

#Sau khi mount với drive. Chuyển đến thư mục chứa file darknet.zip vừa tải lên
#Ví dụ mình để ở thư mục gốc của Google Drive
cd drive/My\ Drive

#Giải nén file darknet.zip
!unzip darknet.zip

#Chuyển đến thư mục darknet
cd darknet

#Tạo thư mục backup để lưu lại weights khi huấn luyện
#Tên thư mục phải trùng với link folder backup trong file obj.data trên
!mkdir backup

#Tạo file train.txt, valid.txt theo đoạn code
import os
import numpy as np
#"obj" là tên thư mục chứa cả ảnh và file annotation.
lst_files = os.listdir("data/obj/")
lst_images = []

for file in lst_files:
  if ".txt" not in file:
    lst_images.append(file)
    
#Tách 200 ảnh ra làm tập validation  
random_idx = np.random.randint(0, len(lst_images), 200)

#Tạo file train.txt được đặt trong thư mục darknet/data
with open("data/train.txt","w") as f:
  for idx in range(len(lst_images)):
    if idx not in random_idx:
      f.write("data/obj/"+lst_images[idx]+"\n")
      
#Tạo file valid.txt được đặt trong thư mục darknet/data
with open("data/valid.txt","w") as f:
    for idx in random_idx:
      f.write("data/obj/"+lst_images[idx]+"\n")
      
#Biên dịch darknet (chỉ cần biên dịch một lần, lần sau dùng bỏ qua bước này)
!make

#Phân quyền thực thi module darknet
!chmod +x ./darknet

Bắt đầu quá trình huấn luyện sử dụng command line:

!./darknet detector train data/obj.data yolo-tinyv4-obj.cfg yolov4-tiny.conv.29 -map \
-dont_show > yolotinv4_lisenceplate.log

Cú pháp tổng quát để huấn luyện:

!./darknet detector train [data config file] [model config file] [pre-trained weights]
-map > [file log saved]

-map: Dùng để hiển thị mAP được tính trên tập validation.

Nếu bạn gặp lỗi:
CUDA Error: out of memory: File exists thì hãy quay lại sửa subdivisions=32 trong file yolo-tinyv4-obj.cfg

Theo dõi quá trình huấn luyện

Quá trình huấn luyện sẽ được lưu vào file yolotinv4_lisenceplate.log, ngoài ra darknet tự động tạo ra ảnh chart.png lưu trong thư mục darknet và được cập nhật liên tục để theo dõi trực tiếp thông số của quá trình huấn luyện.

chart.png

Nhận xét: Quá trình huấn luyện hội tụ rất nhanh. Vì vậy có thể dừng sớm sau 2000 batches.

Dự đoán

Sau khi huấn luyện xong, toàn bộ weights sẽ được lưu trong folder backup.

#Danh sách các weights được lưu
!ls backup/

Để dự báo một bức ảnh sử dụng cú pháp:

!./darknet detector test [data config file] [model config file] [best-weights]
[image path]
 #cụ thể như sau
!./darknet detector test data/obj.data yolo-tinyv4-obj.cfg \
backup/yolo-tinyv4-obj_best.weights test1.jpg

Kết quả dự đoán được lưu thành file predictions.jpg

#Hàm sau được dùng để hiển thị kết quả dự đoán lên colab
def show(path):
  import cv2
  import matplotlib.pyplot as plt

  image = cv2.imread(path)
  original_width, original_height = image.shape[1], image.shape[0]
  resized_image = cv2.resize(image, (2*original_width, 2*original_height)\
  , interpolation = cv2.INTER_CUBIC)

  resized_image = cv2.cvtColor(resized_image, cv2.COLOR_BGR2RGB)
  plt.figure(figsize=(20,10))
  plt.axis("off")
  plt.imshow(resized_image)
  plt.show()
 
show("predictions.jpg")
Kết quả dự đoán

Code và dataset đã gán nhãn mọi người có thể lấy ở đây.


Deep Learning cơ bản ©2024. All Rights Reserved.
Powered by WordPress. Theme by Phoenix Web Solutions