九州起名网 - 做最专业的取名网
当前位置: 首页 起名资讯 宝宝取名资讯

用python起名

在python程序编写过程中,如何解决模块名称冲突

如果你有两个同名的模块,那么你只能导人它们中的一个——默认情况下,Python总是会选择在模块搜索路径sys.path中最左边的那一项。如果你偏爱的模块和顶层脚本在同一目录下,那就不成问题;由于顶层脚本的主目录总是模块搜索路径中的第一项,因此它的内容总是会首先被自动定位。然而对于跨目录的导入,模块搜索路径的线性本质意味着同名的文件会产生冲突。

要修复这一冲突,要么避免同名文件。如果你需要同时访问两个同名的文件,那么就要把两个源文件分别放入子目录中,这样包导入目录名称将使得模块引用唯一。只要外围的包目录名称是唯一的,你就能访问同名模块中的任意一个,或是全部的两个。注意,如果你不小心为自己的模块使用了一个名称,而它碰巧和你需要使用的标准库模块的名称相同,那么也会出现这一问题。这是因为程序主目录(或是模块路径中靠前的另一个目录)下的本地模块会隐藏和替换标准库模块。要修复这种覆盖,要么避免使用和你需要的另一模块相同的名称,要么把模块放到一个包目录下然后使用Python 3.X的包相对导入模型(包相对导入在2.X版本中是一个可选的功能)。在包相对导入模型下,普通导入会跳过包目录,因此你可以获取标准库版本,但在必要时特殊的点号开头导入语句仍然可以选取同名模块的本地版本。

怎么用python进行数据

pandas是本书后续内容的首选库。pandas可以满足以下需求:

具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误。.

集成时间序列功能

既能处理时间序列数据也能处理非时间序列数据的数据结构

数学运算和简约(比如对某个轴求和)可以根据不同的元数据(轴编号)执行

灵活处理缺失数据

合并及其他出现在常见数据库(例如基于SQL的)中的关系型运算

1、pandas数据结构介绍

两个数据结构:Series和DataFrame。Series是一种类似于以为NumPy数组的对象,它由一组数据(各种NumPy数据类型)和与之相关的一组数据标签(即索引)组成的。可以用index和values分别规定索引和值。如果不规定索引,会自动创建 0到 N-1索引。

#-*- encoding:utf-8-*-import numpy as npimport pandas as pdfrom pandas import Series,DataFrame#Series可以设置index,有点像字典,用index索引obj= Series([1,2,3],index=['a','b','c'])#print obj['a']#也就是说,可以用字典直接创建Seriesdic= dict(key= ['a','b','c'],value= [1,2,3])

dic= Series(dic)#下面注意可以利用一个字符串更新键值key1= ['a','b','c','d']#注意下面的语句可以将 Series对象中的值提取出来,不过要知道的字典是不能这么做提取的dic1= Series(obj,index= key1)#print dic#print dic1#isnull和 notnull是用来检测缺失数据#print pd.isnull(dic1)#Series很重要的功能就是按照键值自动对齐功能dic2= Series([10,20,30,40],index= ['a','b','c','e'])#print dic1+ dic2#name属性,可以起名字dic1.name='s1'dic1.index.name='key1'#Series的索引可以就地修改dic1.index= ['x','y','z','w']

DataFrame是一种表格型结构,含有一组有序的列,每一列可以是不同的数据类型。既有行索引,又有列索引,可以被看做由Series组成的字典(使用共同的索引)。跟其他类似的数据结构(比如R中的data.frame),DataFrame面向行和列的操作基本是平衡的。其实,DataFrame中的数据是以一个或者多个二维块存放的(不是列表、字典或者其他)。

#-*- encoding:utf-8-*-import numpy as npimport pandas as pdfrom pandas import Series,DataFrame#构建DataFrame可以直接传入等长的列表或Series组成的字典#不等长会产生错误data={'a':[1,2,3],'c':[4,5,6],'b':[7,8,9]

}#注意是按照列的名字进行列排序frame= DataFrame(data)#print frame#指定列之后就会按照指定的进行排序frame= DataFrame(data,columns=['a','c','b'])print frame#可以有空列,index是说行名frame1= DataFrame(data,columns= ['a','b','c','d'],index= ['one','two','three'])print frame1#用字典方式取列数据print frame['a']print frame.b#列数据的修改直接选出来重新赋值即可#行,可以用行名或者行数来进行选取print frame1.ix['two']#为列赋值,如果是Series,规定了index后可以精确赋值frame1['d']= Series([100,200,300],index= ['two','one','three'])print frame1#删除列用del函数del frame1['d']#警告:通过列名选出来的是Series的视图,并不是副本,可用Series copy方法得到副本

另一种常见的结构是嵌套字典,即字典的字典,这样的结构会默认为外键为列,内列为行。

#-*- encoding:utf-8-*-import numpy as npimport pandas as pdfrom pandas import Series,DataFrame#内层字典的键值会被合并、排序以形成最终的索引pop={'Nevada':{2001:2.4,2002:2.9},'Ohio':{2000:1.5,2001:1.7,2002:3.6}}

frame3= DataFrame(pop)#rint frame3#Dataframe也有行和列有name属性,DataFrame有value属性frame3.index.name='year'frame3.columns.name='state'print frame3print frame3.values

下面列出了DataFrame构造函数能够接受的各种数据。

索引对象

#-*- encoding:utf-8-*-import numpy as npimport pandas as pdfrom pandas import Series,DataFrame#pandas索引对象负责管理轴标签和其他元数据,构建Series和DataFrame时,所用到的任何数组或其他序列的标签都被转换为Indexobj= Series(range(3),index= ['a','b','c'])

index= obj.index#print index#索引对象是无法修改的,这非常重要,因为这样才会使得Index对象在多个数据结构之间安全共享index1= pd.Index(np.arange(3))

obj2= Series([1.5,-2.5,0],index= index1)print obj2.index is index1#除了长得像数组,Index的功能也类似一个固定大小的集合print'Ohio' in frame3.columnsprint 2003 in frame3.index

pandas中的Index是一个类,pandas中主要的Index对象(什么时候用到)。

下面是Index的方法与属性,值得注意的是:index并不是数组。

2、基本功能

下面介绍基本的Series和 DataFrame数据处理手段。索引:

#-*- encoding:utf-8-*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame#Series有一个reindex函数,可以将索引重排,以致元素顺序发生变化obj= Series([1,2,3,4],index=['a','b','c','d'])#注意这里的reindex并不改变obj的值,得到的是一个“副本”#fill_value显然是填充空的index的值#print obj.reindex(['a','c','d','b','e'],fill_value= 0)#print objobj2= Series(['red','blue'],index=[0,4])#method= ffill,意味着前向值填充obj3= obj2.reindex(range(6),method='ffill')#print obj3#DataFrame的reindex可以修改行、列或者两个都改frame= DataFrame(np.arange(9).reshape((3,3)),index= ['a','c','d'],columns= ['Ohio','Texas','California'])#只是传入一列数,是对行进行reindex,因为...frame的行参数叫index...(我这么猜的)frame2= frame.reindex(['a','b','c','d'])#print frame2#当传入原来没有的index是,当然返回的是空NaN#frame3= frame.reindex(['e'])#print frame3states= ['Texas','Utah','California']#这是对行、列重排#注意:这里的method是对index也就是行进行的填充,列是不能填充的(不管method的位置如何)frame4= frame.reindex(index= ['a','b','c','d'],columns=states,method='ffill')#print frame4#使用ix的标签索引功能,重新索引变得比较简洁print frame.ix[['a','d','c','b'],states]

丢弃指定轴上的项

#-*- encoding:utf-8-*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame#drop函数可以丢弃轴上的列、行值obj= Series(np.arange(3.),index= ['a','b','c'])#原Series并不丢弃obj.drop('b')#print obj#注意行可以随意丢弃,列需要加axis= 1print frame.drop(['a'])print frame.drop(['Ohio'],axis= 1)

下面说索引、选取和过滤

#-*- encoding:utf-8-*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame

obj= Series([1,2,3,4],index=['a','b','c','d'])

frame= DataFrame(np.arange(9).reshape((3,3)),index= ['a','c','d'],columns= ['Ohio','Texas','California'])#Series切片和索引#print obj[obj< 2]#注意:利用标签的切片与python的切片不同,两端都是包含的(有道理)print obj['b':'c']#对于DataFrame,列可以直接用名称print frame['Ohio']#特殊情况:通过切片和bool型索引,得到的是行(有道理)print frame[:2]print frame[frame['Ohio']!= 0]#下面的方式是对frame所有元素都适用,不是行或者列,下面的得到的是numpy.ndarray类型的数据print frame[frame< 5],type(frame[frame< 5])

frame[frame< 5]= 0print frame#对于DataFrame上的标签索引,用ix进行print frame.ix[['a','d'],['Ohio','Texas']]print frame.ix[2]#注意这里默认取行#注意下面默认取行print frame.ix[frame.Ohio> 0]#注意下面的逗号后面是列标print frame.ix[frame.Ohio> 0,:2]

下面是常用的索引选项:

算术运算和数据对齐

#pandas有一个重要的功能就是能够根据索引自动对齐,其中索引不重合的部分值为NaNs1= Series([1,2,3],['a','b','c'])

s2= Series([4,5,6],['b','c','d'])#print s1+ s2df1= DataFrame(np.arange(12.).reshape(3,4),columns=list('abcd'))

df2= DataFrame(np.arange(20.).reshape(4,5),columns=list('abcde'))#print df1+ df2#使用add方法,并传入填充值,注意下面的fill_value函数是先对应填充再进行加和,而不是加和得到NaN之后再填充#print df1.add(df2,fill_value= 1000)#df1.reindex(columns= df2.columns,fill_value=0)

除了add之外,还有其他的方法:

DataFrame和Series之间的运算

#下面看一下DataFrame和Series之间的计算过程arr= DataFrame(np.arange(12.).reshape((3,4)),columns= list('abcd'))#下面的结果标明,就是按行分别相减即可,叫做 broadcasting#注意:默认情况下,DataFrame和Series的计算会将Series的索引匹配到DataFrame的列,然后进行计算,再沿着行一直向下广播#注意:下面的式子中,如果写arr- arr[0]是错的,因为只有标签索引函数ix后面加数字才表示行print arr- arr.ix[0]

Series2= Series(range(3),index= list('cdf'))#按照规则,在不匹配的列会形成NaN值print arr+ Series2#如果想匹配行且在列上广播,需要用到算术运算方法Series3= arr['d']#axis就是希望匹配的轴print arr.sub(Series3,axis= 0)

下面是函数应用和映射

#-*- encoding:utf-8-*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame#NumPy的元素级数组方法也适用于pandas对象frame= DataFrame(np.random.randn(4,3),columns= list('abc'),index= ['Ut','Oh','Te','Or'])print frame#下面是求绝对值:#print np.abs(frame)#另一种常见的做法是:将一个函数应用到行或者列上,用apply方法,与R语言类似fun= lambda x:x.max()- x.min()#默认是应用在每一列上print frame.apply(fun)#下面是应用在列上print frame.apply(fun,axis= 1)#很多统计函数根本不用apply,直接调用方法就可以了print frame.sum()#除了标量值之外,apply函数后面还可以接返回多个值组成的的Series的函数,有没有很漂亮?def f(x): return Series([x.min(),x.max()],index= ['min','max'])#print frame.apply(f)#元素级的python函数也是可以用的,但是要使用applymap函数format= lambda x:'%.2f'% xprint frame.applymap(format)#之所以要用applymap是因为Series有一个应用于元素级函数的map方法??#这里的map很有用print frame['b'].map(format)

排序与排名

#-*- encoding:utf-8-*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame#用sort_index函数对行、列的索引进行排序obj= Series(range(4),index= ['d','a','b','c'])print obj.sort_index()

frame= DataFrame(np.arange(8).reshape((2,4)),index= ['three','one'],columns= ['d','a','b','c'])#默认是对行“索引”进行排序,如果对列“索引”进行排序,axis= 1即可print frame.sort_index()print frame.sort_index(axis= 1)print frame.sort_index(axis= 1,ascending= False)#如果对值进行排序,用的是order函数,注意所有的缺失值会放到最后(如果有的话)print obj.order()#numpy中的sort也可以用来排序print np.sort(obj)#如果相对DataFrame的值进行排序,函数还是sort_index,只不过后面需要加一个参数byframe= DataFrame({'b':[4,7,-3,2],'a':[0,1,0,1]})print frame.sort_index(by= ['a','b'])#rank函数返回从小到大排序的下标,对于平级的数,rank是通过“为各组分配一个平均排名”的方式破坏评级关系#下标从1开始obj= Series([7,-5,7,4,2,0,4])print obj.rank()#而numpy中的argsort函数比较奇怪,返回的是把数据进行排序之后,按照值得顺序对应的下标,下标从0开始print np.argsort(obj)#打印结果为:1,5,4,3,6,0,2按照这个下标顺序恰好可以得到从小打到的值,见下面print obj[np.argsort(obj)]#rank函数中有一个method选项,用来规定下标的方式print obj.rank(method='first',ascending=False)print obj.rank(method='max',ascending=False)print obj.rank(method='min',ascending=False)#对于DataFrame,rank函数默认把每一列排好并返回坐标print frame.rank()print frame.rank(axis= 1)

带有重复值的轴索引

#-*- encoding:utf-8-*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame#虽然pandas的很多函数(如reindex)要求标签唯一,但是并不具有强制性obj= Series(range(5),index= list('aabbc'))print obj#索引是否唯一用is_unique看是否唯一print obj.index.is_unique#对于重复值的索引,选取的话返回一个Series,唯一的索引返回一个标量print obj['a']#对于DataFrame也是如此df= DataFrame(np.random.randn(4,3),index= list('aabb'))print dfprint df.ix['b']#####自己导入数据的时候数据处理之前可以做一下index唯一性等,自己创建DataFrame注意不能这样

3、汇总和计算描述统计

#-*- encoding:utf-8-*-import numpy as npimport osimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as pltimport time#pandas对象拥有一组常用的数学和统计方法,大部分属于简约统计,用于从Series中提取一个值,或者从DataFrame中提取一列或者一行Series#注意:与NumPy数组相比,这些函数都是基于没有缺失数据的建设构建的,也就是说:这些函数会自动忽略缺失值。df= DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index= list('abcd'),columns=['one','two'])print df.sum()print df.sum(axis= 1)#下面是一些函数,idxmin和 idmax返回的是达到最小或者最大的索引print df.idxmin()print df.idxmin(axis=1)#关于累积型的函数print df.cumsum()#describe函数,与R语言中的describe函数基本相同print df.describe()#对于非数值型的数据,看看下面的结果obj= Series(['c','a','a','b','d']* 4)print obj.describe()'''结果为:

count 20

unique 4

top a

freq 8

freq是指字母出现的最高频率'''

#-*- encoding:utf-8-*-import numpy as npimport osimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as pltimport time#下面看一下cummin函数#注意:这里的cummin函数是截止到目前为止的最小值,而不是加和以后的最小值frame= DataFrame([[1,2,3,4],[5,6,7,8],[-10,11,12,-13]],index= list('abc'),columns= ['one','two','three','four'])print frame.cummin()print frame

>>>

one two three four

a 1 2 3 4

b 1 2 3 4

c-10 2 3-13

one two three four

a 1 2 3 4

b 5 6 7 8

c-10 11 12-13

相关系数与协方差

有些汇总

中文文本挖掘R语言和Python哪个好

单就数据分析对比,我认为R的优势有:

1、学习先易后难,不会把小白们吓掉;

2、数据科学的包特别多

3、可视化特别吊

R的缺点也不少:

1、R经常更新,更新后经常不支持之前你安装的包;我电脑里安装了10+个R的版本,不停的切换

2、R语言的包、函数名起的很随意,看名字不知道是干什么用的,记不起名字如何让小白使用啊。

3、R语言社区人少,遇到问题你只能自己解决

4、即使有RStudio,写代码还是不方便

下面再说下python,优点:

1、是一门看的懂的,说人话的语言。库名、函数名都很好理解记忆,而且你看别人写的代码基本知道这代码的意思,不信你试试。

2、数据获取占优势,数据分析第一步是数据获取,现在人文社科很多数据需要网上抓取,不过就抓数据而言,python更占优势。各种教程,代码,网上一大片。

3、社区人数特别多,基本你遇到的问题都能找到

python的缺点:

1、学习起来,开头很难,学习曲线与R正好相反。

2、公平起见,我还是写上,python的数据分析库不如R多

3、可视化不如R

综合下,建议大家学习python,语言通俗易懂,功能强大,越来越简单。

标签: 宝宝取名

声明:

1、本文来源于互联网,所有内容仅代表作者本人的观点,与本网站立场无关,作者文责自负。

2、本网站部份内容来自互联网收集整理,对于不当转载或引用而引起的民事纷争、行政处理或其他损失,本网不承担责任。

3、如果有侵权内容、不妥之处,请第一时间联系我们删除,请联系

推荐文章

更多

最新文章

更多

热门文章

更多