Trong lĩnh vực khoa học máy tính, định nghĩa về Ontology đã chuyển từ việc tập trung vào các đặc tả hình thức, rõ ràng của các khái niệm được chia sẻ sang nhấn mạnh vào việc xác định một tổ chức chặt chẽ và toàn diện của một miền tri thức. Wordnet từ Đại học Princeton định nghĩa Ontology là sự biểu diễn có thứ bậc của một miền tri thức chứa tất cả các thực thể liên quan và các mối quan hệ của chúng. Ngày càng có nhiều nghiên cứu đề cập đến Ontology như một phương tiện để biểu diễn tri thức được đặc trưng bởi nhiều khái niệm với các mối quan hệ giữa các khái niệm cũng được biểu diễn.
Rodrigues và cộng sự lưu ý rằng một Ontology có thể được ánh xạ bằng các công cụ dựa trên máy tính, do đó cho phép miền tri thức được chuẩn hóa và chia sẻ. Ví dụ: công cụ Oracle 10g sử dụng Ontology để mô tả siêu dữ liệu, đặc tả mô hình miền và tích hợp dữ liệu. Như Bobillo và cộng sự đã chỉ ra, các Ontology tạo ra các mẫu để biểu diễn mối quan hệ giữa các mô tả ngữ cảnh và các tập con miền. Mẫu Ontology có thể được sử dụng để cho phép suy luận, phân tích và tái sử dụng kiến thức miền.
Các ấn phẩm gần đây và nghiên cứu thực nghiệm cho thấy cơ sở tri thức được xây dựng từ các tài liệu có thể được sử dụng để mô hình hóa ý nghĩa của văn bản. Vì ý nghĩa của văn bản không được thể hiện rõ ràng ngay từ các từ hoặc cụm từ nên các mẫu ngữ nghĩa được trích xuất từ văn bản được sử dụng để viết tóm tắt và phân tích ý nghĩa bị ràng buộc bởi Ontology. Theo Buitelaar và cộng sự, một Ontology cũng có thể được sử dụng như một lược đồ cơ sở dữ liệu, giúp chính thức hóa dữ liệu liên quan đến việc tóm tắt và thể hiện ý nghĩa theo từ vựng. Lược đồ Ontology cung cấp kiến thức nền tảng có giá trị và thể hiện các mối quan hệ nhân quả trong văn bản.
Zheng và cộng sự đã chứng minh cách trình bày kiến thức trong lĩnh vực bằng các khái niệm và mối quan hệ được đánh giá bằng điểm phù hợp, điểm số này được sử dụng để đánh giá liệu bản tóm tắt có liên quan đến một chủ đề cụ thể hay không. Các chuyên gia chú thích các cụm từ khóa để có thể suy ra mối quan hệ có ý nghĩa giữa các từ. Do đó, Ontology mô tả ngữ nghĩa của nguồn thông tin và làm cho nội dung trở nên rõ ràng.
Cuối cùng, Joung và Chuang đưa ra một cuộc thảo luận sâu rộng về các ứng dụng để phát triển các Ontology ngang hàng (P2P). Các Ontology này được bắt nguồn từ các Ontology ngang hàng nhằm xác định các từ và cụm từ tạo điều kiện thuận lợi cho việc xử lý và trích xuất văn bản để tóm tắt.
Tài liệu tham khảo:
1. Trappey, A.J., Trappey, C.V. & Wu, CY. Automatic patent document summarization for collaborative knowledge systems and services. J. Syst. Sci. Syst. Eng. 18, 71–94 (2009). https://doi.org/10.1007/s11518-009-5100-7.
An ninh mạng (Cybersecurity) là hành động bảo vệ hệ thống, mạng và chương trình từ tấn công kỹ thuật số. An ninh mạng thiết lập một quá trình bảo vệ thông tin và hệ thống thông tin bằng cách phát hiện và phản hồi các truy cập trái phép, ngăn chặn việc sử dụng, tiết lộ, sửa đổi hoặc đánh sập hệ thống. An ninh mạng duy trì tính bảo mật, tính toàn vẹn và tính sẵn có của dữ liệu. An ninh mạng là bảo vệ con người, xã hội, tổ chức và quốc gia khỏi các rủi ro trên không gian mạng.
Clickbait là một hình thức quảng cáo sai sự thật nhằm thu hút sự chú ý của người đọc thông qua các liên kết hình thu nhỏ dẫn họ đọc, xem hoặc nghe nội dung có sẵn trên các trang Web tương ứng. Clickbait sử dụng dòng tiêu đề hấp dẫn (lừa đảo, gây hiểu lầm hoặc giật gân) nhằm thu hút nhiều độc giả và khuyến khích họ nhấp vào liên kết được cung cấp. Clickbait phổ biến nhất là ở dạng thư rác và quảng cáo được sử dụng để chuyển hướng người dùng đến các trang Web thương mại. Một loại Clickbait phổ biến khác là ở dạng tiêu đề tin tức nhằm tăng số lượt xem trang nhằm tăng doanh thu của họ. Trong trường hợp này, người đọc có thể dễ dàng trở thành nạn nhân khi cho rằng nguồn tin tức là tin tức hợp pháp, nhưng trên thực tế, những tin tức đó có thể lừa đảo, giật gân, gây hiểu nhầm, chưa được xác minh và cung cấp thông tin vô trách nhiệm. Nguy hiểm hơn là sự hiện diện của các nhà quảng cáo có các liên kết đáng ngờ, cố gắng cài đặt phần mềm độc hại hoặc đánh cắp mật khẩu và thông tin cá nhân.
Tài liệu tham khảo:
1. P. Rajapaksha, R. Farahbakhsh and N. Crespi, "BERT, XLNet or RoBERTa: The Best Transfer Learning Model to Detect Clickbaits," in IEEE Access, vol. 9, pp. 154704-154716, 2021, doi: 10.1109/ACCESS.2021.3128742.
Tội phạm mạng (Cybercrime) là việc sử dụng công nghệ thông tin và truyền thông để thực hiện các hành vi tội phạm, có hại và vô đạo đức trên không gian mạng.
Tài liệu tham khảo
1. Bernik, Igor. (2014). Cybercrime and Cyber Warfare. 1-165. 10.1002/9781118898604.
Kỹ nghệ xã hội (Social Engineering) đề cập đến lợi dụng điểm yếu của con người, tận dụng sự tương tác và cảm xúc của con người để thao túng mục tiêu. Kỹ nghệ xã hội bao gồm việc lừa ai đó tiết lộ thông tin hoặc cho phép truy cập vào mạng dữ liệu. Một cuộc tấn công kỹ nghệ xã hội thường thực hiện nhiều bước. Kẻ tấn công sẽ nghiên cứu nạn nhân tiềm năng, thu thập thông tin về họ và cách họ có thể sử dụng chúng để vượt qua các giao thức bảo mật hoặc lấy thông tin. Sau đó, kẻ tấn công làm điều gì đó để lấy được lòng tin của mục tiêu trước khi thao túng họ tiết lộ thông tin nhạy cảm hoặc vi phạm chính sách bảo mật.
Ví dụ: kẻ xâm nhập có thể đóng vai nhân viên bộ phận trợ giúp CNTT và yêu cầu người dùng cung cấp thông tin như tên người dùng và mật khẩu của họ. Và điều đáng ngạc nhiên là có bao nhiêu người không đắn đo về việc tình nguyện cung cấp thông tin đó, đặc biệt nếu thông tin đó có vẻ như được yêu cầu bởi một người đại diện hợp pháp. Nói một cách đơn giản, kỹ thuật lừa đảo là việc sử dụng sự lừa dối để thao túng các cá nhân nhằm cho phép truy cập hoặc tiết lộ thông tin hoặc dữ liệu.
Tài liệu tham khảo
Typosquatting, còn được gọi là chiếm quyền URL, làm nhiễm độc trang web hoặc giả mạo URL, là một hình thức tấn công chiếm dụng tên miền (cybersquatting). Kiểu tấn công này dựa trên những lỗi đánh máy, lỗi chính tả của người dùng khi nhập địa chỉ trang web vào trình duyệt. Nếu nhập sai địa chỉ trang web, người dùng có nguy cơ truy cập đến một trang web lừa đảo, chứa mã độc, quảng cáo...
Có 5 loại lỗi phổ biến thường bị lợi dụng để Typosquatting:
(So sánh với tên miền gốc ví dụ: diachiweb.com)
Các lỗi chính tả phổ biến như diachuweb.com
Lỗi đánh máy như diachiwbe.com
Một tên miền tương tự như diachiwebs.com
Gõ sai tên miền như diachiweb.org
Gõ lệch tên miền như diachiweb.cm, .co, .om. Mỗi ký tự thiếu trong tên miền .com đều có thể dẫn tới một trang web giả mạo, nguy hiểm.
Các kiểu tấn công Typosquatting khác:
Combosquatting: Không có lỗi sai nhưng thêm vào một từ tùy ý, có vẻ hợp lý để đánh lừa người dùng như diachiweb-uytin.com. Theo thống kê, Cobosquatting phổ biến gấp 10 lần Typosquatting.
Doppelganger domain: Bỏ qua dấu chấm thietkediachiweb.com thay vì thietke.diachiweb.com
Thêm yếu tố phụ: a.thietkeweb.com
Thêm từ vào để tạo ra một tên miền hấp dẫn, trực quan như diachiweb-hay.com hoặc diachiweb-ngon.com.
Khi vào trang web của những kẻ xấu, người dùng có thể bị đánh lừa rằng họ đang truy cập vào trang web thật bởi giao diện, bố cục hoặc nội dung được sao chép tương tự. Các email spam đôi khi cũng sử dụng Typosquatting để lừa người dùng truy cập vào các trang web chứa mã độc hoặc các trang web giả mạo.
Tài liệu tham khảo
Mạng Adhoc di động (MANET - Mobile Adhoc Network) là tập hợp các nút di động độc lập có thể liên lạc với nhau qua sóng vô tuyến. Các nút di động nằm trong phạm vi vô tuyến của nhau có thể liên lạc trực tiếp, trong khi các nút khác cần sự trợ giúp của các nút trung gian để định tuyến các gói của chúng. Mỗi nút có một giao diện không dây để liên lạc với nhau. Các mạng này được phân phối đầy đủ và có thể hoạt động ở mọi nơi mà không cần sự trợ giúp của bất kỳ cơ sở hạ tầng cố định nào như điểm truy cập hoặc trạm gốc.
MANET thường được định nghĩa là mạng có nhiều nút tự trị, thường bao gồm các thiết bị di động có thể tự sắp xếp theo nhiều cách khác nhau và hoạt động mà không cần quản lý chặt chẽ hoặc cơ sở hạ tầng tập trung. Có nhiều loại thiết lập khác nhau có thể được gọi là MANET và tiềm năng của loại mạng này vẫn đang được nghiên cứu.
Lợi ích chính của việc sử dụng mạng Adhoc di động là có thể kết nối với Internet mà không cần sử dụng bộ định tuyến không dây. Kết quả là việc duy trì một mạng Adhoc ít tốn kém hơn so với việc duy trì một mạng tiêu chuẩn. Do loại bỏ chi phí cơ sở hạ tầng cố định và giảm yêu cầu về điện năng cho các nút di động, MANET có hiệu quả hơn về mặt chi phí. Hơn nữa, trong các giao thức định tuyến và truyền dẫn của MANET được xây dựng để xử lý khả năng chịu lỗi và cho phép xảy ra lỗi kết nối.
Tài liệu tham khảo
1. N. Shah, H. El-Ocla and P. Shah, "Adaptive Routing Protocol in Mobile Ad-Hoc Networks Using Genetic Algorithm," in IEEE Access, vol. 10, pp. 132949-132964, 2022, doi: 10.1109/ACCESS.2022.3230991.
2. Singh, Narendra & Hemrajani, Naveen & Blasie-Patrick, Nahayo. (2018). Comparative Analysis of Single-path Vs Multipath routing: a Case Study of AODV and AOMDV Protocols. 10.13140/RG.2.2.23985.28009.
Danh mục các lỗ hổng và phơi nhiễm phổ biến (CVE - Common Vulnerabilities and Exposures) là một cơ sở dữ liệu ghi lại thông tin được phát hành công khai về nhận diện và định nghĩa các lỗ hổng an ninh mạng.
Tài liệu tham khảo
ROC (Receiver operating characteristic) là một đồ thị được sử dụng khá phổ biến trong validation các model phân loại nhị phân. Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo failse positive rate (FPR) tại các ngưỡng Threshold khác nhau. Trong machine learning Chúng ta gọi true positive rate là độ nhạy sensitivity tức là xác xuất dự báo đúng một sự kiện là positive. Tỷ lệ false positive rate là probability of false alarm (tỷ lệ cảnh báo sai, một sự kiện là negative nhưng coi nó là positive) và tỷ lệ này tương ứng với xác xuất mắc sai lầm loại II sẽ được trình bày bên dưới. Như vậy ROC curve sẽ thể hiện mối quan hệ, sự đánh đổi và ý nghĩa lựa chọn một model phù hợp của độ nhạy và tỷ lệ cảnh báo sai. Nhằm tạo ra một cái nhìn tổng quan nhất về ROC, bài viết này sẽ giới thiệu đến bạn đọc thế nào là ROC, ý nghĩa học thuật và cách lựa chọn model dựa trên ROC.
Xác xuất mắc sai lầm loại I và loại II trong dự báo được nhắc đến khá nhiều trong các tài liệu thống kê học và đây là những loại sai lầm đặc trưng cơ bản trong các model dự báo. Giả sử chúng ta xét một model dự báo sự kiện với 2 khả năng positive (tích cực) và negative (tiêu cực). Các kết quả của model xảy ra sẽ rơi vào 4 nhóm sau:
TP và TN là những case dự báo đúng. Còn FP, FN là những case dự báo sai. FN tương đương với mắc sai lầm loại I (Bác bỏ sự kiện là positive và gán cho nó là negative) và FP tương đương với mắc sai lầm loại II (Chấp nhận một sự kiện là positive khi bản chất sự kiện và negative). Thông thường xác xuất mắc sai lầm loại II sẽ gây ra hậu quả lớn hơn. Mục đích chính của các model chuẩn đoán, cảnh báo hay quản trị rủi ro là cảnh báo sớm, phòng ngừa, loại bỏ các sự kiện xấu nên việc tìm chính xác được sự kiện negative được ưu tiên hơn positive. Để hiểu hơn tại sao mức độ rủi ro của sai lầm loại II là cao hơn loại I chúng ta phân tích ví dụ thực tế sau.
Bệnh tiểu đường khá nguy hiểm nhưng xác xuất mắc bệnh của loại bệnh này đối với tỷ lệ dân số là rất thấp chẳng hạn 1:10000. Một người có các biểu hiện tiểu đường và thực hiện các xét nghiệm. Sau khi xem kết quả chúng ta giả định rằng bác sĩ kết luận sai. Khi đó có 2 khả năng xảy ra:
Loại I: Bản thân bệnh nhân hoàn toàn bình thường, bác sĩ kết luận bệnh nhân bị tiểu đường.
Loại II: Bệnh nhân bị tiểu đường nhưng bác sĩ kết luận hoàn toàn bình thường.
Rõ ràng sai lầm loại II gây ra hậu quả lớn hơn vì bệnh nhân không phát hiện sớm bệnh của mình để điều trị kịp thời sẽ dẫn đến bệnh phát triển xấu đi. Sai lầm loại I có ảnh hưởng tới chi phí khám chữa bệnh nhưng không ảnh hưởng đến sức khỏe và hậu quả là ít nghiêm trọng hơn.
Căn cứ vào mức độ rủi ro này đôi khi chúng ta sẽ lựa chọn model dựa trên tiêu chuẩn mức độ thiệt hại mang lại là thấp nhất mà không phải là các chỉ số đo lường sức mạnh của model như AUC, Gini, Accuracy rate. Chẳng hạn như nếu một model dự báo nợ xấu khách hàng có xác xuất dự báo chính xác tốt hơn nhưng khi áp dụng model giá trị nợ xấu giảm thiểu của nó thấp hơn một model khác có xác xuất dự báo chính xác kém hơn thì vẫn lựa chọn model thứ 2 bởi mặc dù dự báo kém hơn về tổng thể (bao gồm cả trường hợp dự báo đúng khách hàng vỡ nợ và không vỡ nợ) nhưng tỷ lệ dự báo chính xác các hợp đồng vỡ nợ của nó cao hơn. Như vậy nếu coi xác xuất dự báo đúng là cố định thì luôn có sự đánh đổi giữa việc dự báo đúng các trường hợp tốt và dự báo đúng nguy cơ xấu. Hay nói cách khác khi tỷ lệ chính xác dự báo nguy cơ xấu tăng lên thì tỷ lệ dự báo chính xác trường hợp tốt giảm xuống. Vì mức độ quan trọng của việc lựa chọn mục tiêu mô hình là tập trung vào dự báo nguy cơ xấu hay tốt mà thống kê học đưa ra một vài tham số đo lường các tỷ lệ dự báo như sensitivity, specificity.
Độ nhạy model còn được gọi là TPR(True positive rate) cho biết mức độ dự báo chính xác trong nhóm sự kiện positive.
Sensitivity = Số lượng sự kiện positive được dự báo đúng là positive/Số lượng sự kiện positive.
Trái lại với Sensitivity là Specificity được định nghĩa là tỷ lệ dự báo chính xác trong nhóm sự kiện negative.
Specificity = Số lượng sự kiện negative được dự báo đúng là negative/số lượng sự kiện negative.
False positive rate kí hiệu là FPR có công thức:
FPR = 1-Specificity.
Cho biết mức độ dự báo sai một sự kiện khi nó là negative nhưng kết luận là positive. False positive rate chính là tỷ lệ mắc sai lầm loại II và là mục tiêu để các model quản trị rủi ro tối thiểu hóa nó. Bảng bên dưới sẽ cho chúng ta hình dung rõ hơn về cách tính và mối liên hệ của các chỉ số này.
Confusion matrix
Thông thường các khía cạnh dự báo của một model mà chúng ta quan tâm sẽ tập trung vào 2 tỷ lệ: Sensitivity và False positive rate. Vì vậy cần một đồ thị biểu diễn mối liên hệ giữa chúng. ROC là một model đặc thù thể hiện các tỷ lệ này theo những ngưỡng Threshold.
Dựa trên model logistic, sau khi hồi qui chúng ta sẽ thu được các điểm số của biến được dự báo. Nếu thiết lập một điểm cutpoint cho model ta sẽ có một ngưỡng để đánh giá model dự báo ra kết quả positive hay negative. Đồ thị ROC sẽ biểu diễn với mỗi điểm cutpoint ứng với nó sẽ có tỷ lệ Sensitivity và False positive rate là bao nhiêu. Trong đó trục tung ứng với tỷ lệ Sensitivity và trục hoành ứng với tỷ lệ False positive rate.
ROC Curve
Chúng ta thấy đường cong ROC là một dạng đường cong lồi hướng về phía góc trên cùng bên trái. Ứng với mỗi giá trị Sensitivity cao hơn là tỷ lệ False positive rate cao hơn. Điều này có thể lý giải như sau:
Khi các điểm cutpoint tăng dần thì tỷ lệ Sensitivity giảm dần do ở mức điểm cao hơn thì số lượng được dự báo là positive có thể giảm trong khi số lượng positive thực tế không đổi -> Sensitivity có thể giảm. Đồng thời tỷ lệ False positive rate tăng do mức điểm cao hơn thì số lượng dự báo là positive tăng -> số lượng được dự báo sai FP (Failse Positive) có thể tăng -> Tỷ lệ False positive rate tăng. Ta có thể giải thích điều này bằng hình ảnh mình họa:
Cutpoint or Threshold
Hình elip1 chứa các chấm bi đại diện cho nhóm negative và hình elip2 chứa các chấm hình vuông đại diện cho nhóm positive. Điểm số của nhóm positive thu được từ model hồi qui sẽ có xu hướng cao hơn nhóm negative nên hình elip2 có xu hướng cao hơn elip1. ngưỡng cutpoint1 được thiết lập để phân chia những quan sát có điểm lớn hơn nó là positive (phần diện tích màu đỏ) và những quan sát có điểm nhỏ hơn nó là negative (phần diện tích màu vàng). Khi đó tỷ lệ Sensitivity sẽ bằng phần diện tích màu đỏ so với diện tích toàn bộ hình elip2 và Failse positive rate sẽ là phần diện tích màu vàng so với toàn bộ hình elip1. Khi ngưỡng cutpoint tăng dần thì diện tích màu đỏ và diện tích màu vàng đều giảm tương ứng với Sensitivity và Failse to positive đều giảm và ngược lại. Do đó đồ thị ROC có xu hướng đồng biến giữa Sensitivity và Failse to positive.
Bên cạnh tính đồng biến là tính lồi của ROC. Tính chất này sẽ không chứng minh ở đây do khá phức tạp về mặt toán học. Chúng ta chỉ cần hiểu đơn giản nó phản ánh ở các mức cutpoint (Threshold) thấp hơn thì mức độ gia tăng của Sensitivity cao hơn Failse to positive và mức cutpoint (Threshold) cao hơn thì xu hướng này ngược lại.
Đồ thị ROC biểu diễn tỷ lệ Sensitivity và Failse to positive của vô số các ngưỡng Threshold. Vậy tiêu chí nào có thể sử dụng để thiết lập một điểm Threshold tốt nhất cho một model. Và căn cứ vào đồ thị ROC thế hiện như thế nào thì ta sẽ xác định model có tính phân loại tốt nhất. Mục bên dưới sẽ trả lời cho câu hỏi này.
Giả sử chúng ta có 4 kết quả từ 4 model hồi qui lần lượt là A,B,C,C’ trên cùng một tập dữ liệu như bên dưới.
Accuracy table
Các tỷ lệ TP, FN, FP, TN, TPR, FPR được giải thích ở các mục I, II. Chúng ta thể hiện kết quả dự báo của 4 model này trên đồ thị ROC.
ROC Curve
Phương pháp dự báo A thể hiện kết quả tốt nhất trong các model A,B,C khi tỷ lệ Accuracy = 0.68. Kết quả dự báo của B là điểm B nằm trên đường dự báo random line (trùng với đường chéo) có Accuracy = 0.5. Đây là kết quả của việc dự báo ngẫu nhiên (trong trường hợp chưa biết xác xuất xảy ra của positive và negative).c là model có tỷ lệ Accuracy thấp nhất và kết quả dự báo này có tỷ lệ chính xác kèm hơn dự báo random. Tuy nhiên khi C được phản chiếu qua điểm trung tâm là (0.5,0.5) kết quả thu được là model C’ tốt hơn A. Kết quả phản chiếu đơn giản là đảo ngược dự báo của model C từ Positive thành Negative. Một model dự báo chính xác càng cao thì điểm biểu diễn của nó trên đồ thị ROC càng gần góc bên trái trên cùng. Tuy nhiên trên thực tế lựa chọn model phù hợp không hẳn chỉ căn cứ vào đồ thị của ROC mà xét đến giá trị rủi ro có thể tránh khỏi của model như đã đề cập ở mục I. Việc xác định 2 đồ thị ROC của 2 model xem đồ thị nào cong hơn chỉ mang tính tương đối vì vậy chỉ số chính xác hơn cả để đánh giá sức mạnh của model lại là khoảng cách của điểm đó với đường random line, khoảng cách này lớn hơn thì đồ thị ROC thể hiện sức mạnh phân loại cao hơn. Khi điểm này trùng với đỉnh của góc trên cùng bên trái tức là model dự báo perfect classification: Sensitivity = 100% và False positive rate = 0% và đối diện với nó qua điểm trung tâm (0.5,0.5) là điểm góc dưới cùng bên phải thể hiện model dự báo kết quả hoàn toàn sai: Sensitivity = 0% và False positive rate = 100%.
Một model có sức mạnh dự báo lớn hơn so với việc dự báo random khi nó có ROC nằm phía trên bên trái đường random line. Giá trị cutpoint tốt nhất để phân loại Positive và Negative cho model là điểm tiệm cận của đường thẳng song song với đường random line với ROC curve.
Tài liệu tham khảo
PyTorch là một thư viện tensor được tối ưu hóa để học sâu bằng GPU và CPU. Nhóm Meta AI của Facebook đã phát triển.
Tài liệu tham khảo
Web lưu trữ kiến thức cá nhân đã tham khảo và thấy hữu ích cho người đọc. Các bạn có thể đóng góp bài viết qua địa chỉ: dzokha1010@gmail.com