谷歌发布Rust重构的Magika 1.0,性能安全大提升
快速阅读: 谷歌发布Magika 1.0,采用Rust语言重构,支持200多种文件格式,性能与安全性显著提升,简化开发者集成,鼓励社区优化。
谷歌公司近日宣布推出 Magika 1.0,这是其基于人工智能的文件类型检测系统的最新稳定版本。此次发布的版本标志着 Magika 在性能和安全性方面取得了重大进展,因为核心引擎已全面迁移到 Rust 语言。自去年开源以来,Magika 已在开源社区中获得广泛应用,每月下载量超过 100 万次。
新版 Magika 的架构进行了全面重构,显著提高了处理速度和内存安全性。谷歌表示,该工具在单核处理器下每秒可识别数百个文件,借助多核 CPU 则可扩展至每秒数千个文件。Magika 1.0 采用 ONNX Runtime 进行模型推理,并利用 Tokio 框架实现异步处理,确保其高效运行。
在文件格式支持方面,Magika 1.0 的检测能力已扩展到 200 多种文件格式,几乎是初始版本的两倍。新增的文件类型包括数据科学与机器学习中的 Jupyter Notebooks、Numpy、PyTorch 等,以及现代编程和网页开发中的 Swift、Kotlin、TypeScript 等。此外,还支持 DevOps 相关文件和多种数据库及图形格式文件,如 SQLite 和 AutoCAD。
Magika 1.0 不仅提升了对相似格式文件的识别能力,还改善了对不同编程语言文件的区分,例如 C 与 C++、JavaScript 与 TypeScript 等。谷歌在技术实现过程中面临诸多挑战,包括训练数据的庞大规模和部分文件类型样本稀缺。为此,谷歌开发了自有数据集库 SedPack,并通过生成式 AI 工具 Gemini 创造高质量的合成训练数据,以提升模型的泛化能力。
值得一提的是,Magika 还更新了 Python 和 TypeScript 模块,使开发者可以更轻松地进行集成。用户可以通过简单命令在不同操作系统上安装 Magika,谷歌鼓励开发者积极参与到项目中,继续优化和扩展工具的功能。
划重点:
– Magika 1.0 采用 Rust 语言重构,性能与安全性大幅提升。
– 支持 200 多种文件格式,新增多种数据科学与编程语言类型。
– 简化开发者集成过程,鼓励社区参与项目优化。
(以上内容均由Ai生成)