数据分析

7 篇文章
数据分析-08PyEcharts 数据可视化

数据分析-08PyEcharts 数据可视化

PyEcharts是ECharts的Python封装,用于生成交互式图表,支持缩放、提示、切换等丰富交互。文章系统介绍了基础图表(Line折线图、Bar柱状图、Pie饼图、Scatter散点图、HeatMap热力图)和高级图表(Radar雷达图、WordCloud词云、Gauge仪表盘、Liquid水球图、Sunburst旭日图、EffectScatter涟漪散点图)。重点讲解了组合组件:Grid网格布局通过百分比定位实现多图表精确布局并避免重叠,Page分页展示、Tab标签页切换、Timeline时间线动画。此外还涵盖样式配置(LabelOpts、ItemStyleOpts、LineStyleOpts)、内置主题(LIGHT、DARK、MACARONS等)以及DataZoom数据区域缩放组件。文章强调通过Grid的pos_top/bottom/left/right参数控制图表位置,确保不重叠。核心目的是帮助用户掌握PyEcharts实现专业交互式可视化。

数据分析-07房地产市场数据分析报告

数据分析-07房地产市场数据分析报告

该报告对房地产房源数据进行全面分析,揭示房价影响因素与市场分布特征。房价整体呈右偏分布,多数房源集中在中低价位。核心影响因素中,面积与房价呈最强正相关,楼龄为负相关。城市差异显著,直辖市相比非直辖市存在约27%的溢价。高价房源普遍面积更大、楼龄更新、南北通透朝向具有溢价效应,三室户型为市场主流且相比两室溢价约20%。分析涵盖数据清洗、特征工程、描述性统计、相关性分析等多环节,为理解房地产市场提供了数据支撑。

数据分析-06Seaborn 数据可视化

数据分析-06Seaborn 数据可视化

Seaborn是基于Matplotlib的高级统计可视化库,提供简洁API和美观默认样式,底层仍调用Matplotlib绘图函数。文章以企鹅数据集为实例,系统介绍了Seaborn的主要图表类型:分布图表(histplot、kdeplot、rugplot)、计数图表(countplot、barplot)、关系图表(scatterplot、jointplot、pairplot)、分类图表(boxplot、violinplot)以及热力图(heatmap)。每种图表均给出核心函数及其用途,并展示了样式与配色控制函数(set_style、set_palette)。通过综合案例分析,演示如何利用Seaborn进行多变量关系探索和指标对比。文章最后提供了核心函数速查表,帮助用户快速选用合适的图表进行数据分析。

数据分析-04Pandas 数据分析实战

数据分析-04Pandas 数据分析实战

Pandas是数据分析的核心工具,支持CSV、JSON、Excel等多种格式的数据导入导出,并提供读取参数如parse_dates、usecols等。缺失值处理是数据清洗的重要环节,包括使用isna()检测、dropna()删除、fillna()填充(可用均值、前后向填充等),以及interpolate()插值。时间数据处理涵盖Timestamp创建、to_datetime转换、dt访问器提取日期属性、date_range生成时间序列,以及resample进行重采样聚合。数据类型转换通过astype实现,map可用于映射转换。数据分箱分为等距分箱(pd.cut)和等量分箱(pd.qcut),将连续变量离散化。字符串处理通过str属性进行分割、正则提取、替换等操作。重复值可用duplicated检测并用drop_duplicates删除。特征工程包括列重命名、索引设置、分组聚合(groupby)及新特征构造。综合案例展示了企鹅数据集和睡眠数据集的完整清洗、特征构造与统计分析流程。掌握这些技能可独立完成大部分数据分析任务。

数据分析-03Pandas DataFrame 完全指南

数据分析-03Pandas DataFrame 完全指南

Pandas的DataFrame是二维标记表格数据结构,类似Excel或SQL表,由行索引、列名和数据值组成。创建常用字典方式,支持指定列顺序。核心属性包括index、columns、shape、dtypes、values和T。数据访问可通过列名(单列或多列)、行标签(loc)和位置(iloc),at/iat快速访问单个元素。布尔索引实现条件筛选,支持多条件组合。缺失值用isna检测、dropna删除、fillna填充;重复值用duplicated检测、drop_duplicates删除。数值替换用replace。统计方法涵盖sum、mean、median、describe等,支持累积计算(cumsum等)。排序用sort_values,可单列或多列。类型转换用astype。数据变形包括melt(宽表转长表)和pivot(长表转宽表),字符串分割用str.split。分组聚合通过groupby分组,结合agg应用多个聚合函数。案例实战展示了学生成绩分析、销售分析和电商用户行为分析。掌握这些技能可高效完成数据分析任务。

数据分析-02Pandas Series 入门教程

数据分析-02Pandas Series 入门教程

Pandas是Python数据分析核心库,Series是其最基本的一维数据结构,类似带索引的NumPy数组,包含索引(index)和数据值(values)。Series可通过列表、字典或自定义索引创建,具有index、values、dtype、shape、ndim、size、name等属性。索引方式包括显式索引(loc)、隐式索引(iloc)和快速访问(at/iat),布尔索引是强大筛选工具。Series支持标量运算、元素级运算及自动索引对齐。内置丰富方法实现描述性统计(sum、mean、describe)、缺失值处理(isna、dropna、fillna)、排序、去重、替换、成员资格判断、应用函数、累计计算和变化率分析。实战示例涵盖学生成绩、温度、股票价格和销售数据分析,体现Series在数据分析中的高效性和灵活性。核心要点是掌握Series的创建、索引、运算及数据处理方法。

数据分析-01NumPy科学计算

数据分析-01NumPy科学计算

NumPy是Python科学计算的基础库,其核心是高性能的多维数组对象ndarray。该对象通过向量化运算和连续内存存储实现高效计算,速度比Python列表快50-100倍。ndarray具有多维性(标量到高维)、同质性(元素类型一致)和高效性三大特性。文章详细介绍了数组的创建方法(如zeross、arange、随机生成)、常用属性(shape、dtype、ndim等)、丰富的数据类型系统,以及强大的索引与切片功能(布尔索引、花式索引)。运算方面涵盖标量运算、数组间运算、广播机制和矩阵乘法。NumPy提供了全面的数学函数(三角函数、取整等)、统计函数(sum、mean、std等)、比较与逻辑函数、排序去重、数组拼接分割变形等操作,并支持缺失值(nan)处理。掌握NumPy是学习Pandas和数据处理的重要基础。