用于增强乳腺癌诊断的 Sga 驱动特征选择和随机森林分类：一项比较研究

发布时间：2025年3月30日来源：szf

快速阅读: 《Nature.com》消息，本研究利用乳腺数据集通过机器学习分类肺癌，采用数据预处理、海鸥优化算法特征选择及随机森林分类器，实现高精度分类（准确率99.01%），并用留一交叉验证增强泛化能力，优化参数降低过拟合风险。

实验设置涉及一个全面的机器学习流程，旨在使用乳腺数据集对肺癌进行分类。该流程包括数据加载与预处理、特征选择、模型训练和评估，使用Python编程在标准PC配置上完成。系统运行于Windows 7（64位）操作系统，配备Intel Core i5处理器（3 GHz）和4 GB内存，利用Python 3.9以及NumPy（用于数值计算）、Pandas（用于数据操作）、Scikit-learn（用于机器学习模型和预处理）、Matplotlib和Seaborn（用于可视化），以及自研的海鸥优化算法（Seagull Optimization Algorithm）进行特征选择。随机森林分类器被用于分类。

乳腺数据集包含24,481个基因表达特征和97个样本，来源于一个公开的生物信息学存储库（https://csse.szu.edu.cn/staff/zhuzx/Datasets.html）。数据集分为两类：恶性与良性，其中恶性样本有52个，良性样本有45个，保证了类别分布的相对平衡。为了保持数据一致性，对数值变量采用均值填补法处理缺失值，对分类变量则采用众数填补法。通过四分位距（IQR）方法识别异常值，并将其截断至上下限范围内，以防止模型训练中的扭曲现象。数据使用最小-最大缩放进行归一化，将所有基因表达值缩放到0到1的范围，确保特征贡献一致并提升模型收敛性。若存在分类变量，则使用独热编码或标签编码使其与机器学习模型兼容。随后按照80:20的比例，使用分层抽样将数据集划分为训练集和测试集，确保在模型训练和评估期间两类样本的均衡表示。这些预处理策略旨在提高数据集质量并改善所提出模型的整体性能和鲁棒性。

该数据集包含基因表达数据，每个样本对应一位独特患者，每个特征代表某一特定基因的表达水平。目标标签向量y包含类别标签，用以区分癌性和非癌性组织样本。本研究中使用的数据集来自一个公开的生物信息学存储库。每个样本代表一位独特患者的基因表达谱，类别标签用于区分癌性和非癌性组织样本。尽管数据集反映了生物信息学和肿瘤学研究中常见的高维低样本挑战，为了评估所提模型的泛化能力，我们采用了留一交叉验证（LOOCV），这最大程度地利用了可用数据并降低了过拟合的风险。不同划分中表现出的一致高精度——准确率为99.01%，敏感性为99.00%，特异性为98.92%，AUC-ROC为0.998——表明模型能够准确地区分恶性与良性病例。这些结果表明，模型能够有效处理未知数据，并具备较强的临床应用泛化能力。

为降低过拟合风险，我们采取了特征正则化和参数调优等多重策略。针对海鸥优化算法（SGA），对种群规模、最大迭代次数及收敛准则等关键参数进行了精细调节，以增强探索与开发的平衡。针对随机森林分类器（RF），优化了树的数量、最大深度以及最小分裂样本数，以提高分类准确性同时避免模型过拟合。通过上述策略，模型的鲁棒性得到了显著增强，并确保了其在不同数据子集上的稳定表现。

(以上内容均由Ai生成)