Kiến Thức Excel Cách làm sạch dữ liệu trong Excel (nắm rõ quy trình và...

Cách làm sạch dữ liệu trong Excel (nắm rõ quy trình và 9 công cụ hữu ích)

Khi tải các File Excel các nguồn bên ngoài như website, file CSV, cơ sở dữ liệu hay phần mềm bán hàng,… ta sẽ gặp trường hợp dữ liệu đầu vào không “Sạch” với các lỗi như:

  • Khoảng trắng thừa, ký tự ẩn khó phát hiện
  • Dòng dữ liệu bị trùng lặp
  • Định dạng chữ không thống nhất (in hoa, in thường, viết hoa đầu câu…)
  • Ngày tháng bị sai định dạng
  • Số bị lưu dưới dạng văn bản…

Để có dữ liệu để phân tích và làm báo cáo, ta cần phải làm sạch dữ liệu trước. Dưới đây mình sẽ hướng dẫn bạn quy trình và các công cụ để làm sạch dữ liệu trong Excel:

I. Quy trình làm sạch dữ liệu trong Excel

Trước khi tiến hành làm sạch dữ liệu, nên dành vài phút để kiểm tra và sắp xếp lại dữ liệu đầu vào để tránh lỗi lan truyền khi làm sạch dữ liệu.

Quy trình làm sạch nên thực hiện như sau:

  • Bước 1: Nhập dữ liệu đầu vào (mở Tab Data → Get Data để nhập từ Text/CSV/Web/Database.)
  • Bước 2: Tạo bản sao lưu dữ liệu gốc để làm dữ liệu backup (chuột phải → Move or Copy → Create a copy để tạo File sao chép hoặc Ctrl + Shift + S để lưu 1 File mới).
  • Bước 3: Kiểm tra cấu trúc dữ liệu bảng để đảm bảo:
    • Mỗi cột chứa cùng một loại thông tin (VD: Họ tên, Ngày sinh, Doanh thu…).
    • Không có hàng trống hoặc cột trống giữa dữ liệu.
    • Hàng đầu tiên phải là tiêu đề cột (header).
    • Toàn bộ dữ liệu nằm trong một Excel Table (Ctrl + T) để tiện lọc, sắp xếp.
  • Bước 4: Tiến hành làm sạch dữ liệu với các công cụ theo thứ tự:
    • Làm các bước kiểm tra đơn giản trước (chính tả, trùng lặp).
    • Sau đó mới chuyển sang xử lý phức tạp (loại ký tự ẩn, tách/gộp cột…).

II. Làm sạch dữ liệu trong Excel cơ bản

1. Kiểm tra chính tả dữ liệu

Thực hiện:

  • Chọn ReviewSpelling (F7) để Excel tự dò lỗi chính tả.
  • Nếu ta có danh mục riêng (VD: tên công ty, tên sản phẩm), hãy thêm vào Custom Dictionary để Excel nhận diện đúng.

Ví dụ: Trong cột “Công ty” có các giá trị: “Kế Toán VN“, “kế toán vn“, “Kế toán Vn

=> Ta sẽ thêm “Kế Toán VN” vào Custom Dictionary để đảm bảo tât cả dữ liệu được thống nhất.

2. Xóa dữ liệu trùng lặp

Các dòng dữ liệu bị trùng lặp là lỗi thường gặp nhất khi lấy dữ liệu từ nhiều nguồn khác nhau.

Ví dụ: danh sách khách hàng tổng hợp từ nhiều nguồn có đến 350 dòng nhưng thực tế chỉ có 250 dòng có giá trị duy nhất và 100 dòng giá trị trùng lặp.

Để dọn sạch dữ liệu trùng lặp, ta sử dụng:

  • Vào tab DataRemove Duplicates → chọn các cột cần so sánh.
  • Trước khi xóa, có thể lọc giá trị duy nhất qua DataAdvanced FilterUnique records only để xem trước kết quả.

>>> Xem thêm: Hàm VLOOKUP lọc trùng dữ liệu trong Excel (Kèm ví dụ minh họa)

3. Tìm và thay thế các nội dung không mong muốn

Khi dữ liệu đầu vào chứa nhiều tiền tố, hậu tố hoặc ký tự lỗi. Ta có thể xử lý về dữ liệu chuẩn bằng công cụ Find & Replace:

Ví dụ Cột “Địa chỉ” có các giá trị:

  • Hà Nội:
  • TP.HCM:

Ta sẽ sẽ loại bỏ ký tự : bằng cách như sau:

  • Bấm Ctrl + H để mở Find & Replace
  • Tại Find what: nhập :
  • Tại Replace with: ta để trống.

=> Excel sẽ loại bỏ tất cả các ký tự : trong toàn bộ cột.

III. Làm sạch dữ liệu nâng cao trong Excel

1. Loại bỏ khoảng trắng và ký tự ẩn

Dữ liệu từ website hoặc phần mềm thường chứa khoảng trắng không nhìn thấy hoặc ký tự không in được (non-printable characters).

Để làm sạch ta có thể sử dụng công thức sau:

=TRIM(SUBSTITUTE(CLEAN(A2),CHAR(160),""))

Trong đó:

 

  • CLEAN() loại bỏ ký tự ẩn ASCII 0–31
  • SUBSTITUTE(...CHAR(160),"") loại bỏ khoảng trắng đặc biệt (Unicode).
  • TRIM() xóa khoảng trắng đầu, cuối và giữa chuỗi.

Ví dụ: ô A2 có giá trị gốc là “   Kế   Toán VN   ” sau khi sử dụng hàm trên sẽ trả về “Kế Toán VN

2. Chuẩn hóa dữ liệu về quy tắc viết hoa

Các dữ liệu đầu vào rất hay gặp lỗi về quy tắc viết hoa về Họ Và Tên, Địa chỉ,… Để xử lý lỗi này ta có thể sử dụng các hàm sau:

Hàm Chức năng Ứng dụng thực tế
=LOWER(A2) Chuyển toàn bộ thành chữ thường Email, tên miền
=UPPER(A2) Viết in hoa toàn bộ Mã sản phẩm
=PROPER(A2) Viết hoa chữ cái đầu Họ tên, tiêu đề

Ví dụ: ô A2 chứa dữ liệu gốc “nguyễn thị thu hằng” thì ta sẽ viết hoa các chữ cái đầu bằng hàm =PROPER(A2) => và trả về kết quả “Nguyễn Thị Thu Hằng

3. Thực hiện gộp và tách cột dữ liệu

  • Để tách cột:
    • Sử dụng công cụ Text to Colums (bằng cách vào Data => chọn Text to Colums).
    • Chọn dấu phân cách: dấu phẩy, khoảng trắng, tab, dấu gạch ngang…
    • Ví dụ: Cột “Họ và Tên” → tách thành “Họ” và “Tên”.
  • Để gộp cột:
    • Cách 1: Sử dụng công thức nối chuỗi: =B2 & " " & C2
    • Cách 2: Sử dụng hàm CONCATENATE với công thức: =CONCATENATE(B2," ",C2)
    • Ví dụ: Ô B2 chứa “Nguyễn Xuân“, C2 chứa “Nam” thì gộp thành cột Họ và Tên thành “Nguyễn Xuân Nam“.

>>> Xem thêm: 3 Cách tách 1 cột thành 2 cột hoặc nhiều cột trong Excel siêu nhanh

4. Chuẩn hóa dữ liệu số

Lỗi phổ biến khi lấy dữ liệu từ các nguồn bên ngoài về là phần giá trị số lại lưu dưới dạng văn bản khiến khi thực hiện các phép tính toán không cho ra kết quả hoặc kết quả sai. Do đó, ta cần chuẩn hóa để các cột giá trị số về đúng định dạng tương ứng.

Cách thực hiện như sau:

  • Cách 1 – Sử dụng hàm VALUE(A2) hoặc đơn giản dùng phép nhân =A2*1 để chuyển về giá trị số.
  • Cách 2 – Sử dụng Format Cells để định dạng Number.
  • Cách 3 – Sử dụng các hàm làm tròn (ROUND/MROUND/ROUNDDOWN/ROUNDUP…) để làm tròn số lên xuống.

>>> Xem thêm:

5. Chuẩn hóa định dạng ngày giờ

Ngày tháng sai định dạng là lỗi phổ biến nhất và rất hay gặp. Để chuẩn hóa dữ liệu ta sẽ sử dụng các hàm về ngày và giờ trong Excel:

Hàm Công dụng Ví dụ
DATEVALUE(A2) Chuyển ngày dạng text thành số sê-ri “25/10/2025” → 45853
TIMEVALUE(A2) Chuyển giờ dạng text thành số thập phân “14:30” → 0.6042
TEXT(A2,"dd/mm/yyyy") Định dạng lại ngày 25/10/2025
DATE(YEAR(A2),MONTH(A2),DAY(A2)) Chuẩn hóa dữ liệu ngày
Lưu ý: Nếu Excel hiểu nhầm 01/02 là tháng 1 ngày 2 (thay vì 1/2), hãy kiểm tra Region settings trong Windows.
>>> Xem thêm:

IV. Chuyển đổi, đối chiếu và kiểm tra tính nhất quán của dữ liệu

1. Chuyển đổi hàng và cột

Cách thực hiện:

  • Cách 1: Copy vùng dữ liệu → Home → Paste → Transpose
  • Cách 2: Sử dụng hàm TRANSPOSE với công thức =TRANSPOSE(A1:B5)

=> Giúp chuyển bảng dọc thành ngang để so sánh hoặc tổng hợp.

2. Đối chiếu/lấy dữ liệu từ các bảng

Để đối chiếu dữ liệu hoặc lấy dữ liệu theo các điều kiện, ta có thể sử dụng các hàm tra cứu trong excel:

Hàm Mục đích
VLOOKUP() Tra cứu dữ liệu theo cột đầu tiên
HLOOKUP() Tra cứu theo hàng đầu tiên
INDEX() MATCH() Linh hoạt, tra cứu hai chiều
XLOOKUP() (Excel 365) Tra cứu hai chiều, dễ viết hơn

>>> Xem thêm:

V. Tự động hóa làm sạch dữ liệu trong Excel

Nếu phải thường xuyên lặp lại các việc làm sạch dữ liệu, ta có thể sử dụng các cách sau để tự động hóa:

  • Cách 1 – Sử dụng Macro:
    • Chọn Developer → Record Macro → Thực hiện thao tác → Stop Recording. → Lần sau chỉ cần chạy macro là Excel tự làm sạch toàn bộ.
  • Cách 2 – Dùng Power Query:
    • Vào Data → Get & Transform Data → From Table/Range.
    • Power Query cho phép:
      • Loại trùng, đổi kiểu dữ liệu
      • Chia/gộp cột, lọc dữ liệu
      • Lưu “kịch bản làm sạch” và tự động áp dụng khi cập nhật dữ liệu mới.

Ví dụ ta có thể sử dụng Macro để tự động làm Format dữ liệu đầu vào theo mong muốn như cách dưới đây:

Bước 1: Đầu tiên, các bạn mở file Excel chứa dữ liệu cần làm sạch lên. Sau đó các bạn chọn thẻ File trên thanh công cụ. Tiếp theo, các bạn chọn mục Options ở góc bên trái phía dưới màn hình.

Cách làm sạch dữ liệu thô tự động trong Excel 1

Bước 2: Lúc này, cửa sổ Excel Options hiện ra. Tại danh mục trên trái các bạn chọn thẻ Customize Ribbon. Sau đó tại mục Main Tabs ở bên phải các bạn tìm tới mục Developer rồi tích chọn vào ô vuông đó. Cuối cùng các bạn nhấn OK để hoàn tất cài đặt.

Cách làm sạch dữ liệu thô tự động trong Excel 2

Bước 3: Lúc này, thẻ Developer đã xuất hiện trên thanh công cụ. Các bạn chọn thẻ Developer. Sau đó chọn mục Record Macro. Lúc này hộp thoại Record Macro hiện ra, các bạn đặt tên rồi nhấn OK.

Cách làm sạch dữ liệu thô tự động trong Excel: Đơn giản!

Bước 4: Bây giờ các thao tác của bạn sẽ được Excel bắt đầu ghi lại. Các bạn tiến hành chỉnh sửa dữ liệu theo ý muốn như chỉnh sửa kiểu chữ, size chữ, tô màu nền hay là sắp xếp theo thứ tự… Sau khi chỉnh sửa xong, các bạn nhấn chọn mục Stop Recording để dừng việc tạo Record Macro.

Cách làm sạch dữ liệu thô tự động trong Excel: Đơn giản!

Bước 4: Sau khi tạo Macro xong, các bạn có thể sử dụng nó để chỉnh sửa dữ liệu một cách nhanh chóng bằng cách chọn dữ liệu cần format.

Sau đó các bạn chọn thẻ Developer => Macros => chọn Macro vừa tạo ở trên, sau đó nhấn Run. Chỉ cần như vậy là dữ liệu sẽ tự động được chỉnh sửa như trên bước tạo Macro một cách nhanh chóng.

Cách làm sạch dữ liệu thô tự động trong Excel: Đơn giản!

Nếu bạn cần sử dụng Macro cho dữ liệu khác file thì vẫn tương tự như sử dụng cho dữ liệu cùng file. Các bạn chọn thẻ Developer => Macros. Sau khi Macro hiển thị, ta có thể thấy Excel gợi ý cho ta sử dụng Macro của file ta tạo ở phía trên. Các bạn chọn Macro đó và nhấn Run.

Cách làm sạch dữ liệu thô tự động trong Excel: Đơn giản!

Chỉ cần như vậy là dữ liệu trong file này cũng sẽ tự động được căn chỉnh giống như bước tạo Macro ở trên.

Cách làm sạch dữ liệu thô tự động trong Excel: Đơn giản!

Như vậy, bài viết trên đã hướng dẫn các bạn cách làm sạch dữ liệu thô tự động trong Excel. Hy vọng bài viết sẽ hữu ích với các bạn trong quá trình làm việc. Chúc các bạn thành công!