By comparing the performance across

By comparing the performance across the seven algorithms, the top four were selected: Gradient Boosting, Random Forests, Extra Trees, and Bagging Classifier. For the next step, we tuned the hyperparameters for each model using cross-validated random search. Parameter tuning was undertaken using three-fold cross validation due to the scarcity of known clusters (n = 957). Therefore, using a traditional traintest-validation split would bear the risk of making the performance too dependent on a specific subset of training data, waste data, and inhibit predictive ability [38]. A random search was utilized with 1,000 iterations, as it is empirically and theoretically more effective than grid search, as it allows the testing of a broader value spectrum for each parameter, and as it is less likely to waste effort on irrelevant hyperparameters, given the same amount of iterations [19]. We assessed the performance (shown in Appendix 2, Figure 5) of each algorithm after training each model with their respective set of optimal parameters.After comparing the results from the three iterations, the models’ oversampled datasets have been discarded. By looking at the cross-validation performance of the models in Appendix 2, Figure 1, Figure 4, where the mean cross-validation scores are ≥90%, indicating that the model is likely to be overfitting the training data and may not be performing well for unseen data. One could argue that the overfitting is caused by a disproportionate increase of synthetic samples as opposed to the original dataset (Appendix 2, Table 7). In the case of SMOTE (minorities), the class of stolen-bitcoin went from having 4 observations to 306, meaning that almost 24% of observations are synthetic; and, in the case of SMOTE (auto), almost 74% of observations are synthetic as shown in Appendix 2, Table 7.After discarding the models that are trained with the oversampled datasets, the possible winning models are one of the top four trained with the original dataset with or without tuned hyperparameters. As shown in Appendix 2, Table 6, the algorithm with the best mean cross-validation accuracy score is Gradient Boosting (GBC) with the default parameters described in Figure 4. For comparison of the Classification Reports 4 and Appendix 2, Table 8, as well as the plotted receiving-operatingcharacteristic curves (ROC curves) on Figure 5 and Appendix 2, Figure 8, the Gradient Boosting algorithm with default parameters as implemented by ScikitLearn was used with its tuned hyperparameters version using a random search.As the classes of interest (darknet-market, scam, ransomware, stolen-bitcoins) are related to illicit activities, it is both important to maximize both precision and recall, since it is as important to minimize false positives as to maximize true positives.

0/5000

原始語言: -

目標語言: -

結果 (繁體中文) 1: [復制]

復制成功！

通過比較全球七大算法的性能，選擇了前四名：梯度推進，隨機森林，樹木外，和套袋分類。對於下一步，我們使用交叉驗證隨機搜索調整每個模型的超參數。參數調諧用3倍交叉驗證進行由於已知團簇（n = 957）的缺乏。因此，使用傳統的traintest驗證分裂將承擔使性能過於依賴訓練數據，垃圾數據的特定子集的風險，並抑制預測能力[38]。隨機搜索是用於與1000次迭代，因為它是憑經驗且理論上比網格搜索更有效，因為它允許為每個參數值更寬光譜的測試，因為它不太可能浪費在不相關的超參數的努力，給定迭代的相同量的[19]。我們評估了演奏訓練每個模型與它們各自的組最佳參數的後每個算法的（附錄2，圖5所示）。 比較從三個迭代結果後，模特們的過採樣數據集被丟棄。通過查看在附錄2，圖1，圖4，其中平均交叉驗證分數≥90％模型的交叉驗證性能，表明該模型是可能被過度擬合訓練數據，並且可以不被執行以及對看不見的數據。人們可以說，該過擬合是通過合成樣品的不成比例的增加引起的，而不是原始數據集（附錄2，表7）。在SMOTE（少數）的情況下，類被盜-比特幣從具有4觀測306，這意味著觀察的幾乎24％是合成的去; 並且，在SMOTE（自動）的情況下，觀測的幾乎74％是合成的，如圖附錄2，表7中。 丟棄與過採樣數據集訓練模式後，可能獲獎車型是與原始數據集有或沒有調整超參數訓練的前四名之一。如附錄2中，表6中所示，用最好的平均交叉驗證準確度得分的算法梯度增壓（GBC）與在圖4中描述的對於分級報告4和附錄2，表8的比較的默認參數，如以及關於圖5和附錄2，圖8中的標繪接收operatingcharacteristic曲線（ROC曲線），梯度推進與如由ScikitLearn實現與使用隨機搜索其調諧超參數版本使用默認參數的算法。 作為感興趣的類別（暗網市場，詐騙，勒索，偷竊，比特幣）涉及非法活動，它既是重要的以最大限度地提高精確度和召回，因為它是重要的，以盡量減少誤報，以最大限度地提高真陽性。

正在翻譯中..

結果 (繁體中文) 2:[復制]

復制成功！

通過比較七種演算法的性能，選出了前四個演算法：漸變提升、隨機林、額外樹和裝袋分類器。在下一步中，我們使用交叉驗證的隨機搜索調整了每個模型的超參數。由於已知群集的稀缺（n = 957），參數調整使用三重交叉驗證進行。因此，使用傳統的訓練測試驗證拆分可能會使性能過於依賴于訓練資料的特定子集、浪費資料，並抑制預測能力 [38]。隨機搜索被利用了1000次反覆運算，因為它在經驗上和理論上比網格搜索更有效，因為它允許測試每個參數的更廣泛的值譜，而且它不太可能在不相關的超參數上浪費精力，給定相同數量的反覆運算 [19]。在使用每個模型及其各自的最佳參數集訓練後，我們評估了每個演算法的性能（如圖 5 附錄 2 所示）。 在比較了三次反覆運算的結果後，模型的過度取樣資料集已被丟棄。通過查看附錄 2 中模型的交叉驗證性能（圖 1，圖 4），平均交叉驗證分數為 +90%，表明模型可能過度學習訓練資料，並且對於看不見的資料可能無法很好地運行。可以爭辯說，過度學習是由於合成樣本不成比例地增加，而不是原始資料集（附錄 2，表 7）。在SMOTE（少數民族）中，被盜比特幣的類別從4個觀測值增加到306個，這意味著幾乎24%的觀測結果是合成的;在 SMOTE（自動）的情況下，幾乎 74% 的觀測值是合成的，如附錄 2 表 7 所示。 在放棄使用過採樣資料集訓練的模型後，可能獲勝的模型是使用原始資料集訓練的前四個模型之一，無論是否經過調優的超參數。如附錄 2 表 6 所示，具有最佳平均交叉驗證精度分數的演算法是梯度提升（GBC），其預設參數如圖 4 中所述。比較分類報告 4 和附錄 2 表 8，以及圖 5 和附錄 2（圖 8）上繪製的接收操作特徵曲線（ROC 曲線），圖 8 的梯度提升演算法，其預設參數由ScikitLearn 使用隨機搜索與其調諧的超參數版本一起使用。 由於感興趣的類別（暗網市場、詐騙、勒索軟體、被盜比特幣）與非法活動相關，因此，最大化精度和召回率都非常重要，因為儘量減少誤報和最大化真實正數同樣重要。

正在翻譯中..

結果 (繁體中文) 3:[復制]

復制成功！

通過比較7種算灋的效能，選出了前4種算灋：梯度增强、隨機森林、額外樹和袋裝分類器。下一步，我們使用交叉驗證隨機蒐索為每個模型調整超參數。由於缺乏已知的集羣（n=957），參數調整採用了三次交叉驗證。囙此，使用傳統的訓練測試驗證分割將承擔使效能過於依賴訓練數據的特定子集、浪費數據和抑制預測能力的風險[38]。隨機蒐索被用於1000次反覆運算，因為它在經驗上和理論上比網格蒐索更有效，因為它允許對每個參數測試更寬的值譜，並且在相同的反覆運算次數下，它不太可能在不相關的超參數上浪費精力[19]。在使用各自的最佳參數集訓練每個模型之後，我們評估了每個算灋的效能（如附錄2圖5所示）。 在比較三次反覆運算的結果後，模型的過採樣數据集被丟棄。通過查看附錄2、圖1、圖4中模型的交叉驗證效能，其中平均交叉驗證分數≥90%，表明該模型可能過度擬合訓練數據，並且對於未觀察到的數據可能表現不好。有人可能認為，過度擬合是由於合成樣本相對於原始數据集的過度新增所致（附錄2，錶7）。在SMOTE（少數群體）的情况下，被盜比特幣的類別從4個觀察到306個，這意味著幾乎24%的觀察是合成的；在SMOTE（自動）的情况下，幾乎74%的觀察是合成的，如附錄2錶7所示。 在捨棄使用過採樣數据集訓練的模型之後，可能獲勝的模型是使用原始數据集訓練的前四個模型之一，其中包含或不包含經過優化的超參數。如附錄2錶6所示，交叉驗證準確度得分平均值最好的算灋是梯度增强（GBC），默認參數如圖4所示。為了比較分類報告4和附錄2，錶8，以及圖5和附錄2，圖8上繪製的接收操作特性曲線（ROC曲線），使用了由ScikitLearn實現的帶默認參數的梯度增强算灋，其調諧超參數版本使用隨機蒐索。 由於興趣類別（黑暗市場、詐騙、勒索軟件、被盜比特幣）與非法活動有關，囙此最大限度地提高準確度和召回率都很重要，因為儘量減少誤報和最大限度地提高真陽性同樣重要。

正在翻譯中..

其它語言

本翻譯工具支援: 世界語, 中文, 丹麥文, 亞塞拜然文, 亞美尼亞文, 伊博文, 俄文, 保加利亞文, 信德文, 偵測語言, 優魯巴文, 克林貢語, 克羅埃西亞文, 冰島文, 加泰羅尼亞文, 加里西亞文, 匈牙利文, 南非柯薩文, 南非祖魯文, 卡納達文, 印尼巽他文, 印尼文, 印度古哈拉地文, 印度文, 吉爾吉斯文, 哈薩克文, 喬治亞文, 土庫曼文, 土耳其文, 塔吉克文, 塞爾維亞文, 夏威夷文, 奇切瓦文, 威爾斯文, 孟加拉文, 宿霧文, 寮文, 尼泊爾文, 巴斯克文, 布爾文, 希伯來文, 希臘文, 帕施圖文, 庫德文, 弗利然文, 德文, 意第緒文, 愛沙尼亞文, 愛爾蘭文, 拉丁文, 拉脫維亞文, 挪威文, 捷克文, 斯洛伐克文, 斯洛維尼亞文, 斯瓦希里文, 旁遮普文, 日文, 歐利亞文 (奧里雅文), 毛利文, 法文, 波士尼亞文, 波斯文, 波蘭文, 泰文, 泰盧固文, 泰米爾文, 海地克里奧文, 烏克蘭文, 烏爾都文, 烏茲別克文, 爪哇文, 瑞典文, 瑟索托文, 白俄羅斯文, 盧安達文, 盧森堡文, 科西嘉文, 立陶宛文, 索馬里文, 紹納文, 維吾爾文, 緬甸文, 繁體中文, 羅馬尼亞文, 義大利文, 芬蘭文, 苗文, 英文, 荷蘭文, 菲律賓文, 葡萄牙文, 蒙古文, 薩摩亞文, 蘇格蘭的蓋爾文, 西班牙文, 豪沙文, 越南文, 錫蘭文, 阿姆哈拉文, 阿拉伯文, 阿爾巴尼亞文, 韃靼文, 韓文, 馬來文, 馬其頓文, 馬拉加斯文, 馬拉地文, 馬拉雅拉姆文, 馬耳他文, 高棉文, 等語言的翻譯.