Cách Okta sử dụng máy học để tự động phát hiện và giảm thiểu gian lận thu phí

Gian lận doanh thu quốc tế (IRSF), còn được gọi là lừa đảo cuộc gọi cước phí, là một hình thức gian lận trong đó những kẻ gian lận tạo ra những cuộc gọi/ tin nhắn quốc tế với số lượng lớn trên các tuyến đường đắt đỏ một cách giả tạo. Dưới đây là cách hoạt động của nó. Nhiều bài viết có nội dung về các hình thức chống gian lân đã được đăng trên trang Exclusive Network Vietnam 

  • Kẻ gian lận khai thác quy trình xác thực của Okta và thực hiện các cuộc gọi và/hoặc tin nhắn đắt đỏ như một phần của quy trình xác thực hai yếu tố (MFA) trong đó điện thoại/tin nhắn được sử dụng như một trong những yếu tố.
  • Kẻ gian lận thường thực hiện các cuộc gọi đến những số thu phí cao hoặc các điểm đến có chi phí cao khác để tối đa hóa lợi nhuận.
  • Kẻ gian lận thu lợi từ doanh thu được tạo ra từ những cuộc gọi này

Do chi phí cao liên quan đến các giao dịch điện thoại quốc tế xa, gian lận cuộc gọi cước phí có thể gây ra tác động tài chính đáng kể đối với doanh nghiệp. Tuy nhiên, đối với nhiều khách hàng của chúng tôi, tin nhắn và thoại là một phần quan trọng của quy trình MFA phải luôn đáng tin cậy và không bị gián đoạn. Trong bài viết này, chúng tôi sẽ chia sẻ cách chúng tôi bảo vệ hệ thống của mình khỏi gian lận cuộc gọi cước phí trong khi cung cấp dịch vụ viễn thông đáng tin cậy cho khách hàng của chúng tôi, và cách chúng tôi đã cải thiện phương pháp ngăn chặn gian lận cuộc gọi cước phí của mình bằng cách áp dụng phát hiện dựa trên học máy, làm tăng hiệu quả ngăn chặn lừa đảo cuộc gọi cước phí lên đến 20%.



Yêu cầu hệ thống

Okta là một dịch vụ quan trọng cho nhiệm vụ. Hàng tỷ quá trình xác thực được xử lý thông qua mạng của Okta. Do đó, việc xác định một tập hợp các yêu cầu là rất quan trọng trong quá trình thiết kế hệ thống chống lừa đảo cuộc gọi cước phí.

  • Không gây gián đoạn: Khách hàng đặt niềm tin vào Okta để truy cập vào các ứng dụng và nguồn tài nguyên cần thiết cho hoạt động hàng ngày. Không gây gián đoạn là một yêu cầu quan trọng đối với chúng tôi và chúng tôi cần đảm bảo rằng người dùng được ủy quyền được truy cập vào tài khoản của họ và tài khoản của họ không bị gián đoạn.
  • Độ trễ thấp: Quyết định về việc thực thi giới hạn tốc độ phải được thực hiện với độ trễ thấp. Trải nghiệm người dùng là một yêu cầu quan trọng khác, và quyết định của chúng tôi phải nhanh chóng để xác định xem có cho phép hoặc chặn yêu cầu đến.
  • Linh hoạt: Phản ứng của chúng tôi phải nhanh chóng và linh hoạt để việc phát hiện và thi hành có thể điều chỉnh cho các mô hình lưu lượng khác nhau và tổ chức khác nhau.

Các yêu cầu trên đã thúc đẩy chúng tôi xây dựng một hệ thống bao gồm một số thành phần mô-đun. Bây giờ chúng tôi sẽ xem xét chúng trong các phần tiếp theo.

Phạm vi giới hạn tốc độ

Phạm vi giới hạn tốc độ là các thành phần quan trọng trong hệ thống chống lừa đảo cuộc gọi cước phí, chúng được tách biệt với các giới hạn tốc độ cụ thể của từng điểm cuối (endpoint), và chúng khác biệt theo hai cách.

Giới hạn tốc độ được giới hạn một cách hẹp

Giới hạn tốc độ chống lừa đảo cuộc gọi cước phí được giới hạn theo các thông số cụ thể liên quan đến giao dịch. Ví dụ, thay vì có ngưỡng tối đa cho từng điểm cuối, giới hạn tốc độ chống lừa đảo cuộc gọi cước phí có thể có các ngăn xếp giới hạn tốc độ riêng cho các mục đích giao dịch khác nhau (ví dụ: khôi phục mật khẩu), các vùng phụ địa lý, dải địa chỉ IP, số điện thoại tương tự và vân vân. Khác với lưu lượng hợp pháp từ khách hàng, lưu lượng gian lận thường có xu hướng xuất phát từ một dải số điện thoại cụ thể hoặc không được phân phối địa lý rộng rãi hơn; do đó, giới hạn tốc độ được giới hạn hẹp cho phép chúng ta nhắm mục tiêu các tham số cụ thể trong khi không ảnh hưởng đến các kênh lưu lượng hợp pháp.

Giới hạn tốc độ nhạy cảm với rủi ro

Giới hạn tốc độ chống lừa đảo cuộc gọi cước phí, ngoài việc giới hạn theo các tham số cụ thể, còn phân biệt giao dịch dựa trên các loại rủi ro khác nhau được xác định bởi hệ thống của chúng tôi. Điều này có nghĩa là hai giao dịch trên cùng một tập hợp tham số (ví dụ: giao dịch khôi phục mật khẩu xuất phát từ cùng địa chỉ IP) có thể không chịu cùng một ngưỡng giới hạn tốc độ. Hệ thống của chúng tôi trước tiên xác định một tập hợp các chỉ mục rủi ro (các chỉ báo cho thấy giao dịch có thể là gian lận) áp dụng cho một giao dịch cụ thể nào đó, sau đó hệ thống đánh giá giao dịch đó dựa trên giới hạn tốc độ được đặt cho danh mục rủi ro đó. Những chỉ mục rủi ro này có thể được xác định bởi quốc gia đăng ký số điện thoại, các công thức dựa trên các thuật toán heuristics hoặc các điểm rủi ro được tạo ra bởi các mô hình học máy được mô tả trong các phần tiếp theo.

Phương pháp này có hai lợi ích. Thứ nhất, lưu lượng được xem là rủi ro thấp sẽ không chịu những giới hạn tốc độ chặt chẽ, vì vậy chúng ta có thể đặt các ngưỡng tối đa thấp hơn mà không ảnh hưởng đến lưu lượng hợp pháp từ khách hàng. Thứ hai, hệ thống này cho phép chúng ta sử dụng các cơ chế phát hiện lừa đảo cuộc gọi cước phí có thể tạo ra những kết quả dương tính sai lẫn, vì giới hạn tốc độ không chặn toàn bộ các giao dịch một cách trực tiếp.

Hệ thống kỹ thuật phát hiện theo heuristics
Mỗi yêu cầu SMS hoặc âm thanh được đánh giá ngay lập tức dựa trên một tập hợp các nguyên tắc kỹ thuật. Các giao dịch phù hợp với một tập hợp cụ thể của các nguyên tắc kỹ thuật sẽ chịu các giới hạn tốc độ được mô tả trong phần trước. Chúng thường phụ thuộc vào các tham số của người dùng cuối như địa chỉ IP hoặc số điện thoại của khách hàng.

Học máy không giám sát
Hệ thống học máy không giám sát dựa trên thuật toán rừng phân lớp cô lập, một thuật toán dựa trên cây mà hoạt động bằng cách phân chia tập dữ liệu thành các tập con nhỏ hơn theo cách đệ quy. Thuật toán sử dụng độ sâu của cây cần thiết để cô lập một trường hợp làm đánh giá về điểm bất thường của nó. Ý tưởng đằng sau thuật toán là các trường hợp bất thường là các trường hợp hiếm gặp có thể được cô lập với ít phân chia hơn các trường hợp bình thường. Thuật toán hoạt động bằng cách ngẫu nhiên chọn một đặc trưng và một điểm chia để chia dữ liệu ở mỗi bước. Quá trình này được lặp lại đệ quy cho đến khi tất cả các trường hợp được cô lập. Điểm bất thường của một trường hợp được tính toán dựa trên độ dài trung bình của các cây cô lập nó. Các trường hợp có độ dài đường đi trung bình thấp được coi là các trường hợp bất thường, trong khi các trường hợp có độ dài đường đi trung bình cao được coi là bình thường.

Chúng tôi đã chọn thuật toán này trong hệ thống học máy không giám sát vì một số lý do. Phương pháp này rất hiệu quả và hiệu quả trong việc phát hiện các trường hợp bất thường. Nó không yêu cầu một mô hình hành vi bình thường trước đó. Nó cũng có thể xử lý các tập dữ liệu có số chiều cao một cách dễ dàng.


Hình vẽ trên cho thấy kiến trúc của hệ thống học máy không giám sát. Tổng thể, kiến trúc bao gồm đường ống Extract, Transform, and Load (ETL); đường ống huấn luyện; và đường ống suy luận. Dữ liệu sự kiện của chúng tôi được lưu trữ trong kho lưu trữ AWS S3 thông qua Amazon Kinesis Firehose. Dữ liệu sau đó trở thành khả dụng trong Snowflake để phân tích. Quá trình trích xuất và tạo ra các đặc trưng (đầu vào cho mô hình học máy) được hoàn thành thông qua các công việc Spark/Glue thông qua một kết nối Snowflake. Các đặc trưng trích xuất cũng được lưu trữ trong AWS S3. Cuối cùng, chúng tôi sử dụng Amazon Sagemaker để huấn luyện thuật toán. Từ đó, tạo ra mô hình được sử dụng cho việc dự đoán.

Mỗi yêu cầu âm thanh hoặc SMS được đánh giá trực tiếp dựa trên mô hình phát hiện toll-fraud. Điều này có nghĩa là khi một người dùng yêu cầu một tin nhắn OTP, chúng tôi cần tính toán tất cả các đặc trưng áp dụng cho yêu cầu đó và chạy suy luận trên mô hình trước khi gửi tin nhắn. Chúng tôi có thể đạt được cả việc đánh giá trực tiếp và hiệu suất nhanh bằng cách sử dụng bộ nhớ cache Redis.

Sau khi tính toán các đặc trưng áp dụng, suy luận của mô hình được chạy, cho kết quả là điểm rủi ro. Sau đó, giao dịch có thể được gán một chỉ số rủi ro nếu điểm số vượt qua ngưỡng nhất định, điều này có thể đưa giao dịch vào một tập hợp giới hạn tốc độ đã được xác định trước.

Đáp ứng các khách hàng cá nhân
Chúng tôi sử dụng một loạt các cảnh báo được kích hoạt bởi các đợt tăng trưởng trong lưu lượng không bình thường hoặc vi phạm giới hạn tốc độ lặp đi lặp lại. Những cảnh báo này cho phép nhóm của chúng tôi điều chỉnh giới hạn tốc độ cho các tổ chức cá nhân theo nhu cầu, tùy thuộc vào lưu lượng của họ. Ví dụ, chúng tôi có thể cải thiện giới hạn tốc độ đối với các quốc gia có rủi ro cao cụ thể cho các tổ chức có lưu lượng lớn và hợp pháp đến các điểm đến đó. Trong các trường hợp khác, chúng tôi có thể siết chặt ngưỡng hiện có để ngăn chặn các hoạt động gian lận đã cố gắng giữ dưới ngưỡng giới hạn tốc độ mặc định.

Nguồn: Okta

Nhận xét

Bài đăng phổ biến