数据科学可能是一个昂贵的投资。物理基础设施和设备、云托管服务、数据库访问等都可能迅速累积成可观的费用。这可能会使你在行业中起步变得困难。
1. 谷歌网络安全证书 - 快速进入网络安全职业的快车道
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT
大多数小企业每年在数据分析上花费超过 10,000 美元,但大多数个人无法负担。无论你是独立工作还是为公司设置技术栈,你都需要一个更实惠的选项。以下是如何在不花费过多的情况下设置你的技术栈。
服务提供商如网络托管公司是数据科学中一个重要但常常昂贵的部分。值得庆幸的是,许多服务提供商也为入门用户提供免费的或低成本的服务层。即使是像 AWS 这样的行业领导者,也提供类似 S3 和 AWS Lambda 的免费功能,但有使用限制。
你不能在免费服务层中使用提供商的所有服务,可能会有存储或访问频率的限制。确定你项目的需求,然后比较各种选项,以找到最适合你的需求的方案。
在购买软件工具时,尽量选择基于网页的选项而不是传统的本地应用程序。如果你将大部分或所有操作转移到网络上,你对物理设备的需求就不会那么高。这样,你可以减少在计算机、服务器或其他基础设施上的开支,因为你不需要那么多的存储或处理能力。
在寻找基于网页的选项时,确保了解它们的收费方式。许多 Kubernetes 操作的计费选项按集群每小时收费,这可能会迅速变得昂贵。确保选择的即服务选项不会比本地解决方案更贵。
另一种降低栈成本的方法是排除一些选项。许多功能和过程可能很昂贵,但你可能不需要它们。例如,网站托管的费用通常在1000 美元到 4000 美元之间,但你不一定需要一个独特的域名。
在审查预算和目标时,重新考虑你是否需要列表上的每一项。有些功能可能很有用,但对最终产品的影响不大,所以最好现在先不考虑它们。
数据科学的另一个高成本方面是你的数据库。收集自己的数据很慢,需要大量基础设施成本,许多公开的数据库也很昂贵。你可以通过在开源数据库上训练程序来避免这些成本。
许多开源数据库会免费提供有限的访问权限。一些服务提供商的免费套餐,如 Supabase,甚至会提供免费且完全的访问权限,通常基于开源选项。不过,在使用这些开源数据库时,一定要检查它们的安全性,并在处理前清理数据。
最后,你可以通过调整你的雄心来降低成本。大型、开创性或颠覆性的项目可能会有超出预算的复杂性和存储需求。首先关注较小、需求较少的项目,计划在获得更多收入后扩展。
较小的项目会让有限的免费资源的相对效用显得不那么限制。如果你能等到赚更多的钱再扩展,免费的数据库和托管工具可以帮助你走得更远。
数据科学起初可能会让人觉得难以接受,特别是考虑到一些企业在这方面的花费。尽管这些开支可能会非常庞大,但对新数据科学操作来说并不一定如此。
遵循这五个步骤将帮助你建立你的栈而不需要花费太多。如果你已经有一些工具,甚至可以免费开始工作。然后,你可以开始扩展你的操作,未来转向更大的项目。
德文·帕蒂达是一位大数据和技术作家,同时也是ReHack.com的主编。