Nhóm các chuyên gia nghiên cứu của Cybernews đã phát hiện ra khá nhiều tập dữ liệu lớn, chứa hàng tỷ thông tin đăng nhập từ phương tiện truyền thông xã hội và nền tảng doanh nghiệp đến mạng riêng ảo (VPN) và cổng thông tin dành cho nhà phát triển...
![]() |
Chỉ tính riêng từ đầu năm đến nay, nhóm nghiên cứu đã phát hiện ra 30 tập dữ liệu bị lộ chứa từ hàng chục triệu đến hơn 3,5 tỷ bản ghi mỗi tập và con số tổng lên tới 16 tỷ bản ghi. Theo dự đoán của các chuyên gia, đây có thể không phải là một vụ rò rỉ đơn thuần mà là một kế hoạch được thiết kế để khai thác hàng loạt.
Điều đáng lo ngại nhất là cứ vài tuần lại xuất hiện các tập dữ liệu lớn mới, cho thấy phần mềm độc hại đánh cắp thông tin thực sự phổ biến như thế nào. Với hơn 16 tỷ hồ sơ đăng nhập bị lộ, tội phạm mạng hiện có quyền truy cập vào thông tin cá nhân để chiếm đoạt tài khoản, đánh cắp danh tính và lừa đảo có mục tiêu cao. Các chuyên gia cũng khẳng định, đây cũng không phải là những vụ vi phạm cũ được tái chế, mà là những thông tin tình báo mới, có thể sử dụng ở quy mô lớn.
Điểm sáng duy nhất ở đây là tất cả các tập dữ liệu chỉ bị lộ trong thời gian ngắn và rất may là các nhà nghiên cứu đã phát hiện ra chúng, nhưng lại không thể tìm ra ai đang kiểm soát lượng dữ liệu khổng lồ này. Hầu hết các tập dữ liệu đều có thể truy cập tạm thời thông qua nền tảng tìm kiếm Elasticsearch không an toàn hoặc các phiên bản lưu trữ đối tượng.
Hàng tỷ bản ghi bị lộ chứa những gì?
Các nhà nghiên cứu khẳng định rằng hầu hết dữ liệu trong các tập bị rò rỉ bắt nguồn từ phần mềm độc hại đánh cắp, các tập hợp nhồi thông tin xác thực và các vụ rò rỉ được đóng gói lại. Các chuyên gia khẳng định chắc chắn là có các bản ghi chồng chéo. Nói cách khác, không thể biết có bao nhiêu người hoặc tài khoản thực sự bị lộ.
Tuy nhiên, thông tin mà nhóm thu thập được cho thấy hầu hết thông tin đều tuân theo một cấu trúc rõ ràng: URL, theo sau là thông tin đăng nhập và mật khẩu. Hầu hết những kẻ đánh cắp thông tin hiện đại hay phần mềm độc hại đánh cắp thông tin nhạy cảm đều thu thập dữ liệu theo đúng cách này.
Thông tin trong các tập dữ liệu bị rò rỉ mở ra cánh cửa cho hầu hết mọi dịch vụ trực tuyến có thể tưởng tượng được, từ Apple, Facebook và Google, đến GitHub, Telegram và nhiều dịch vụ chính phủ khác. Thật khó để bỏ lỡ điều gì đó khi có tới 16 tỷ bản ghi được đưa ra.
Theo các nhà nghiên cứu, rò rỉ thông tin xác thực ở quy mô này chính là động lực cho các chiến dịch lừa đảo, chiếm đoạt tài khoản, xâm nhập phần mềm tống tiền và các cuộc tấn công xâm phạm email doanh nghiệp (BEC). Việc đưa vào cả nhật ký đánh cắp thông tin cũ và mới - thường có mã thông báo, cookie và siêu dữ liệu khiến dữ liệu này trở nên đặc biệt nguy hiểm đối với các tổ chức không có xác thực đa yếu tố hoặc các biện pháp vệ sinh thông tin xác thực
Tập dữ liệu nào đã tiết lộ hàng tỷ thông tin xác thực?
Các tập dữ liệu mà nhóm nghiên cứu phát hiện ra rất khác nhau. Ví dụ, tập dữ liệu nhỏ nhất, được đặt tên theo phần mềm độc hại, có hơn 16 triệu bản ghi. Trong khi đó, tập dữ liệu lớn nhất, có khả năng liên quan đến nhóm dân số nói tiếng Bồ Đào Nha, có hơn 3,5 tỷ bản ghi. Trung bình, một tập dữ liệu có thông tin xác thực bị tiết lộ có 550 triệu bản ghi.
Một số tập dữ liệu được đặt tên chung chung, chẳng hạn như "đăng nhập", "thông tin xác thực" và các thuật ngữ tương tự, khiến các chuyên gia nghiên cứu chưa nắm được những gì bên trong. Tuy nhiên, một số khác lại ám chỉ đến các dịch vụ mà chúng liên quan.
Ví dụ, một tập dữ liệu với hơn 455 triệu bản ghi được đặt tên để chỉ ra nguồn gốc của nó ở Liên bang Nga. Một tập dữ liệu khác, với hơn 60 triệu bản ghi, được đặt tên theo Telegram, một nền tảng nhắn tin tức thời dựa trên đám mây.
Mặc dù việc đặt tên không phải là cách tốt nhất để suy ra dữ liệu đến từ đâu, nhưng có vẻ như một số thông tin liên quan đến các dịch vụ đám mây, dữ liệu hướng đến doanh nghiệp và thậm chí là các tệp bị khóa. Một số tên tập dữ liệu có thể chỉ ra một dạng phần mềm độc hại được sử dụng để thu thập dữ liệu.
Hiện vẫn chưa biết băng nhóm nào có trong tay các dữ liệu bị rò rỉ. Nhưng các chuyên gian khẳng định chắc chắn rằng một số tập dữ liệu bị rò rỉ thuộc sở hữu của tội phạm mạng. Tội phạm mạng thích các tập dữ liệu lớn vì các bộ sưu tập tổng hợp cho phép chúng mở rộng quy mô các loại tấn công khác nhau, chẳng hạn như đánh cắp danh tính, các chương trình lừa đảo và truy cập trái phép.
Chỉ cần 1% cá nhân nằm trong số dữ liệu bị rò rỉ bị sập bẫy lừa của tin tặc thì thiệt hại cũng vô cùng nặng nề. Việc cần làm trước tiên của mỗi tổ chức, doanh nghiệp vào lúc nào là “dọn dẹp” lại hệ thống mạng của mình. Trong đó, mật khẩu mạnh và thường xuyên thay đổi có thể tạo nên sự khác biệt giữa một tài khoản an toàn và thông tin bị đánh cắp. Người dùng cũng nên xem xét hệ thống của mình để tìm kẻ đánh cắp thông tin, để tránh mất dữ liệu vào tay kẻ tấn công.
Hàng tỷ hồ sơ bị lộ trực tuyến
Các vụ rò rỉ dữ liệu lớn, với hàng tỷ hồ sơ bị lộ, đã trở nên gần như phổ biến. Tuần trước, Cybernews đã chia sẻ về vụ rò rỉ dữ liệu có thể là lớn nhất từng xảy ra ở Trung Quốc, hàng tỷ tài liệu có dữ liệu tài chính, thông tin chi tiết về WeChat và Alipay, cũng như các dữ liệu cá nhân nhạy cảm khác.
Mùa hè năm ngoái, bộ sưu tập mật khẩu khổng lồ với gần mười tỷ mật khẩu duy nhất - RockYou2024 đã bị rò rỉ trên một diễn đàn tin tặc phổ biến. Năm 2021, một bộ sưu tập mật khẩu tương tự với hơn 8 tỷ bản ghi đã bị rò rỉ trực tuyến.
Đầu năm 2024, nhóm nghiên cứu Cybernews đã phát hiện ra vụ rò rỉ dữ liệu có thể vẫn là lớn nhất từ trước đến nay: Mother of All Breaches (MOAB), với con số đáng kinh ngạc là 26 tỷ bản ghi.
Hà Linh
Bình luận