Cách so sánh hai cột dữ liệu trong Excel để xóa, highlight, tô màu dữ liệu trùng lặp

Cách so sánh hai cột dữ liệu trong Excel để xóa, highlight, tô màu dữ liệu trùng lặp là một trong những câu hỏi đang được rất nhiều bạn quan tâm cũng như gửi câu hỏi về cho chúng tôi. Với bài viết này, Blog học excel cơ bản online sẽ hướng dẫn các bạn cách so sánh hai cột Excel trùng lặp và xóa hoặc highlight những phần trùng lặp được tìm thấy.

Compare two columns and find duplicates using Excel formulas

Excel là một ứng dụng rất mạnh và thực sự tuyệt vời để tạo và xử lý các mảng dữ liệu lớn. Bây giờ, bạn có rất nhiều bảng tính và dữ liệu, hoặc có thể chỉ là một bảng tính rất lớn, bạn muốn so sánh 2 cột để tìm các giá trị trùng lắp và thao tác trên những phần lặp được tìm thấy, ví dụ xóa hàng bị trùng, tô màu phần trùng hoặc xóa nội dung của ô bị trùng. Hai cột này có thể nằm trong một bảng, liền kề hoặc không liền kề, hoặc chúng có thể nằm trong 2 trang tính khác nhau, thậm chí là hai bảng tính khác nhau.

Giả sử bạn có 2 cột tên người – 5 tên trong cột A và 3 tên trong cột B. Bạn muốn so sánh dữ liệu giữa hai cột này để tìm các tên bị trùng lắp. Đây chỉ là ví dụ. Trong các bảng tính thực, dữ liệu để so sánh thường có hàng ngàn, hàng vạn mục.

Trường hợp A: Cả hai cột đều trong một trang tính, cùng một bảng dữ liệu: Cột A và cột B.

Both columns are located on one sheet

Trường hợp B: Hai cột được đặt trên hai trang tính khác nhau: cột A trong Sheet2 và cột A trong Sheet3.

Two columns are located on different sheets

So sánh hai cột để tìm giá trị trùng bằng công thức:

Trường hợp 1: cả hai cột cùng một danh sách

  1. Trong ô trống đầu tiên, ô C1, nhập công thức: =IF(ISERROR(MATCH(A1,$B$1:$B$10000,0)),”Unique”,”Duplicate”)

Excel formula to compare data between 2 columns and find duplicate and unique entries

Trong công thức, A1 là ô đầu tiên của cột đầu tiên mà chúng ta muốn sử dụng để so sánh. $B$1$B$10000 là địa chỉ của ô đầu tiên và cuối cùng của cột thứ hai mà bạn muốn so sánh. Hãy chú ý cố định tham chiếu ô – ký hiệu đô la ($) trước các ký tự cột và số hàng. Tôi sử dụng tham chiếu tuyệt đối nhằm giữ nguyên địa chỉ ô khi sao chép công thức.

Nếu bạn muốn tìm các giá trị trùng trong cột B, hoán đổi tên cột như sau: =IF(ISERROR(MATCH(B1,$A$1:$A$10000,0)),”Unique”,”Duplicate”)

Thay vì “Unique”/”Duplicate” (duy nhất/trùng lắp), bạn cũng có thể tự đặt nhãn cho mình như “Not found”/”Found” (Tìm thấy/Không tìm thấy) hoặc “Duplicate” và gõ “” thay vì “Unique”. Trong cách thứ hai, bạn sẽ có một ô trống kế bên ô mà giá trị trùng lắp không được tìm thấy.

  1. Bây giờ hãy sao chép công thức vào tất cả các ô của cột C cho đến hàng cuối cùng có chứa dữ liệu trong cột A. Để làm điều này, đặt con trỏ vào góc dưới bên phải của ô С1, con trỏ sẽ chuyển thành một dấu thập phân đen như trong hình dưới đây:

Put the cursor to the lower right corner of the cell where you have written the formula

Nhấn giữ chuột trái, kéo đường viền ô xuống để chọn tất cả các ô mà bạn muốn sao chép công thức vào. Khi tất cả các ô đã được chọn, thả chuột trái:

Copy the formula to other cells

Chú ý. Trong bảng lớn, có một cách nhanh hơn để sao chép công thức là sử dụng phím tắt. Nhấp vào ô C1 để chọn nó và nhấn Ctrl + C (để sao chép công thức vào clipboard), sau đó nhấn Ctrl + Shift + End (để chọn tất cả những ô chứa dữ liệu trong cột C), cuối cùng, nhấn Ctrl + V (để dán công thức vào tất cả ô tính đã chọn).

  1. Tất cả các ô chứa giá trị trùng đều được đánh dấu là “Duplicate”.

Trường hợp B: hai cột nằm trên hai trang tính (bảng tính) khác nhau.

  1. Trong ô đầu tiên của cột trống đầu tiên trong Sheet2 (cột B), nhập công thức: =IF(ISERROR(MATCH(A1,Sheet3!$A$1:$A$10000,0)),””,”Duplicate”)

Sheet3! là tên trang tính có chứa cột thứ 2, $A$1:$A$10000 là địa chỉ của ô tính đầu tiên và ô tính cuối cùng trong cột thứ 2.

  1. Tương tự như bước trong trường hợp A.
  2. Chúng ta có kết quả sau đây:

Xử lý các giá trị trùng lắp được tìm thấy:

Chúng ta đã tìm thấy những giá trị trong cột thứ nhất (cột A) cũng trùng với cột thứ hai (cột B). Bây giờ chúng ta cần làm vài thứ với chúng.

Thật không hiệu quả và tốn thời gian khi tìm kiếm trên toàn bộ bảng và xem xét từng giá trị trùng lắp một cách thủ công. Có nhiều cách thực hiện ưu việt hơn.

Chỉ hiển thị hàng bị trùng trong cột A:

Nếu cột của bạn không có tiêu đề, bạn cần thêm vào cho chúng. Để thực hiện điều này, đặt con trỏ chuột vào con số thứ tự đầu hàng (số 1), con chuột sẽ biển đổi thành mũi tên màu đen như trong hình dưới đây:

The cursor changes to a black arrow indicating that the entire row is selected.

Nhấp phải vào hàng được chọn và chọn Insert từ danh sách tùy chọn:

Insert a new row

Đặt tên cho cột, ví dụ “Name”, “Duplicate?”… Sau đó mở thẻ Data và nhấp chọn Filter:

Sau khi nhấp chuột vào mũi tên nhỏ màu xám kế bên “Duplicate?” để mở danh sách tùy chọn, bỏ chọn tất cả các mục ngoại trừ Duplicate trong danh sách đó, nhấn OK:

Leave only 'Duplicate' checked in the drop-down list

Như vậy, bạn chỉ thấy những ô tính trong cột A có chứa giá trị trùng lắp với cột B. Có 3 ô tính như vậy trong trang tính ví dụ.

Only duplicated entries are displayed

Để hiển thị tất cả các hàng trong cột A lần nữa, nhấp vào biểu tượng filter trong cột B  và chọn Select All. Hoặc, bạn có thể vào thẻ Data > Select & Filter > Clear như trong hình dưới đây:

 

Tô màu hoặc highlight những giá trị trùng tìm thấy:

Ngoài gắn nhãn “Duplicate”, bạn cũng có thể đánh dấu các giá trị trùng bằng một cách khác như định dạng màu chữ hoặc bôi màu nó.

Lọc các giá trị trùng lặp như giải thích ở trên, chọn các ô tính đã lọc và nhấn Ctrl + F1 để mở hộp thoại Format Cells. Ví dụ: hãy thay đổi màu nền của các hàng bị trùng sang màu vàng tươi. Tất nhiên, bạn có thể thay đổi màu nền của các ô này bằng cách sử dụng tùy chọn Fill color trên thẻ Home, nhưng ưu thế của hộp thoại Format Cells là nó cho phép bạn thực hiện tất cả các thay đổi định dạng cùng lúc.

The Format Cells dialog box

Bây giờ, bạn sẽ không bỏ sót bất kỳ ô chứa giá trị trùng nào.

The background of duplicated cells is changed to yellow

Loại bỏ giá trị trùng lặp từ cột đầu tiên:

Lọc bảng dữ liệu để hiển thị các giá trị trùng lặp, chọn tất cả những ô đó.

Nếu hai cột được so sánh nằm trên hai trang tính khác nhau, cụ thể là trong hai bảng dữ liệu riêng biệt, nhấp phải vào vùng dữ liệu được chọn và chọn Delete Row từ danh sách tùy chọn.

Deleting duplicate rows

Khi Excel yêu cầu bạn xác nhận bạn có thật sự muốn xóa toàn bộ hàng này không, nhấn OK và bỏ bộ lọc. Như vậy, chỉ những hàng chứa các giá trị duy nhất được hiển thị:

Only the rows with unique values are displayed

Xem thêm: Tổng hợp các phương pháp loại bỏ dữ liệu lặp

Nếu hai cột nằm trên cùng một trang tính, hai cột liền kề hoặc không liền kề, việc xóa những giá trị trùng lắp sẽ phức tạp hơn. Chúng ta không thể xóa toàn bộ hàng chứa chúng bởi vì như vậy sẽ xóa những ô tương ứng trong cột 2. Vì vậy, để hiển thị những giá trị duy nhất trong cột A, thực hiện theo các bước sau:

  1. Lọc bảng để các giá trị trùng lặp được hiển thị và chọn tất cả những ô đó. Nhấp phải vào vùng được chọn và chọn Clear Contents.

Excel - clear contents

  1. Bỏ bộ lọc.
  2. Chọn tất cả ô tính trong cột A bắt đầu từ ô A1 đến ô cuối cùng có chứa dữ liệu.
  3. Di chuyển đến thẻ Data, nhấp chọn Sort A to Z. Trong hộp thoại mở ra, chọn Continue with the current selection và nhấn Sort.

Sort only column A

  1. Xóa cột chứa công thức, chỉ để lại “Uniques”
  2. Như vậy, cột A chỉ còn những dữ liệu không bị trùng lặp trong cột B.

All duplicates are removed

Những kiến thức bạn đang xem thuộc khóa học Excel từ cơ bản tới nâng cao của Học Excel Online. Khóa học này cung cấp cho bạn kiến thức một cách đầy đủ và có hệ thống về các hàm, các công cụ trong excel, ứng dụng excel trong công việc… Hiện nay hệ thống đang có nhiều ưu đãi khi bạn đăng ký tham gia khóa học này. Hãy tham gia ngay tại địa chỉ: