据报道,英伟达收购了一家合成数据公司。那么什么是合成数据?
快速阅读: 《CNET 公司》消息,《连线》披露,英伟达收购合成数据公司格雷特尔以强化AI开发者工具支持,交易超3.2亿美元。合成数据可缓解数据短缺问题,既保护隐私又助力AI模型训练,但质量不佳可能影响模型准确性。平衡真实与合成数据的关系仍是行业挑战。
《连线》杂志周三报道,芯片巨头英伟达正通过收购合成数据公司格雷特尔,进一步加大对生成式人工智能开发者工具的支持,交易金额超过3.2亿美元。此举正值生成式人工智能公司面临数据短缺的问题,加剧了对生成数据的需求。据消息透露,格雷特尔的员工将并入英伟达团队。
格雷特尔专注于为AI模型训练提供合成或模拟数据,这将显著增强英伟达为AI开发者提供的工具支持。不过,英伟达的一位发言人拒绝就此事发表评论。
为何合成数据如此重要?训练像OpenAI的ChatGPT这样的大型语言模型等生成式AI模型需要海量数据。然而,现实中获取的数据可能杂乱无章且数量不足。AI公司正接近可用免费训练数据的上限,引发了关于是否能合法使用受版权保护内容的争议。为此,数百名演员、编剧和导演致信特朗普政府的科学技术政策办公室,表达了对使用受版权保护数据的担忧。目前,OpenAI正在游说政府放宽限制,以便更广泛地使用受版权保护的材料来训练AI模型,否则美国公司可能在竞争中落后于中国。
此外,合成数据在保护隐私信息方面也具有重要意义。格雷特尔表示,其合成数据可用于训练模型及工具,同时不会泄露敏感或个人隐私信息——例如,无法识别个人且可能触犯隐私法规的医疗数据。然而,过度依赖非真实信息也可能带来风险。如果合成数据的质量不足,可能导致模型出现错误甚至失效,即模型变得完全失准、毫无价值。
—
视频内容:英伟达GTC 2025主题演讲亮点(16分钟版)
**16:26**
合成数据的重要性在保护隐私的同时,也为训练AI模型提供了新的可能性。但如何平衡真实与合成之间的关系,仍需行业持续探索。
(以上内容均由Ai生成)