6.6 pandas
以下是pandas的常用方法:
这是一个可以读取xls文件的库,需要导入:import pandas
返回类型 | 函数名及参数 | 说明 | 示例 |
---|---|---|---|
DataFrame | pandas.DataFrame() | 创建一个空的数据框架(DataFrame) | df = pd.DataFrame() |
DataFrame | pandas.read_csv(filepath_or_buffer, sep=',', header='infer', names=None) | 从CSV文件创建数据框架 | df = pd.read_csv('data.csv') |
DataFrame | pandas.read_excel(io, sheet_name=0, header=0, names=None) | 从Excel文件创建数据框架 | df = pd.read_excel('data.xlsx') |
DataFrame | pandas.concat(objs, axis=0, join='outer', ignore_index=False, keys=None) | 连接行(列)数据框架 | df = pd.concat([df1, df2]) |
Series | pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False) | 创建一个系列(Series) | s = pd.Series([1,2,3,4], index=['a','b','c','d']) |
DataFrame | pandas.DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False) | 删除缺失值 | df = df.dropna() |
DataFrame | pandas.DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None) | 填充缺失值 | df = df.fillna(0) |
DataFrame | pandas.DataFrame.pivot(index=None, columns=None, values=None) | 创建透视表 | df = df.pivot(index='date', columns='variable', values='value') |
DataFrame | pandas.DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, dropna=True) | 按组计算 | grouped_df = df.groupby('group_col').sum() |
DataFrame | pandas.DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None) | 合并数据框架 | merged_df = pd.merge(df1, df2, on='key') |
DataFrame | pandas.DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds) | 逐行(逐列)应用函数 | df = df.apply(lambda x: x**2) |
DataFrame | pandas.DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None) | 按值排序 | df = df.sort_values(by='value_col') |
DataFrame | pandas.DataFrame.corr(method='pearson', min_periods=1) | 计算列之间的相关性 | corr_matrix = df.corr() |
DataFrame | pandas.DataFrame.plot(kind='line', x=None, y=None, ax=None, subplots=False, sharex=None, sharey=False, layout=None, figsize=None, use_index=True, title=None, grid=None, legend=True, style=None, logx=False, logy=False, loglog=False, xticks=None, yticks=None, xlim=None, ylim=None, rot=None, fontsize=None, colormap=None, table=False, yerr=None, xerr=None, secondary_y=False, sort_columns=False, **kwds) | 可视化数据框架 | df.plot(kind='line', x='date_col', y='value_col') |