知行编程网知行编程网  2022-12-30 10:00 知行编程网 隐藏边栏  2 
文章评分 0 次,平均分 0.0
导语: 本文主要介绍了关于大数据需要学Python吗的相关知识,包括大数据方向主要学什么,以及大数据python入门学校这些编程知识,希望对大家有参考作用。

我非常喜欢使用 python。用python处理数据是家常便饭。我从事的工作涉及nlp、算法、推荐、数据挖掘、数据清洗,数据量级从几十k到几TB

不等,我来说说吧

百万级别数据是小数据,python处理起来不成问题,python处理数据还是有些问题的

大数据需要学Python吗?

Python处理大数据的劣势:

1、python线程有gil。通俗的说就是多线程的时候只能跑在一个核上,浪费多核服务器。在一个常见的场景下是致命的:有巨大的

大数据共享或共享(如large dict),多进程会导致内存不足,多线程解决不了数据共享问题,一个单独的写进程负责维护和读取

写这个数据不仅效率不高而且麻烦

2、python的执行效率不高。处理大数据时,效率不高。这是真实的。 pypy(一个jit python解释器,可以理解为一种加速执行的脚本语言

things)可以提高很多速度,但是pypy不支持很多python经典包,比如numpy(顺便给pypy打个广告,土豪可以捐献PyPy——

Call for donations)

3.绝大部分的大公司,用java处理大数据不管是环境也好,积累也好,都会好很多。

推荐学习《

Python处理数据的优势(不是处理大数据):

1. 异常快捷的开发速度,代码量巨少
2. 丰富的数据处理包,不管正则也好,html解析啦,xml解析啦,用起来非常方便
3. 内部类型使用成本巨低,不需要额外怎么操作(java,c++用个map都很费劲)
4. 公司中,很大量的数据处理工作工作是不需要面对非常大的数据的
5. 巨大的数据不是语言所能解决的,需要处理数据的框架(hadoop, mpi。。。。)虽然小众,但是python还是有处理大数据的框
架的,或者一些框架也支持python
6. 编码问题处理起来太太太方便了

综上所述:

1. python可以处理大数据

2. python处理大数据不一定是最优的选择

3. python和其他语言(公司主推的方式)并行使用是非常不错的选择

4. 因为开发速度,你如果经常处理数据,而且喜欢linux终端,而且经常处理不大的数据(100m一下),最好还是学一下python

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写
扫一扫二维码分享