-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathparquet_read_10g.log
More file actions
42 lines (42 loc) · 2.7 KB
/
parquet_read_10g.log
File metadata and controls
42 lines (42 loc) · 2.7 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
2025-03-31 12:31:41,498 - INFO - None
2025-03-31 12:31:51,692 - INFO - id age income credit_score
count 100000000.00 100000000.00 100000000.00 100000000.00
mean 50000.50 59.02 499354.66 575.11
std 28867.51 23.95 289019.13 159.00
min 1.00 18.00 0.00 300.00
25% 25000.75 38.00 249000.00 437.00
50% 50000.50 59.00 499000.00 575.00
75% 75000.25 80.00 750000.00 713.00
max 100000.00 100.00 1000000.00 850.00
2025-03-31 12:32:26,866 - INFO - 数据中不存在缺失值
2025-03-31 12:32:27,066 - INFO - 数据中不存在年龄非法值
2025-03-31 12:35:37,424 - WARNING - 数据中性别列存在异常值,异常值数量: 0
2025-03-31 12:35:37,424 - WARNING - 数据中存在重复行,重复行重复量: 99200000
2025-03-31 12:42:50,358 - INFO - 删除重复行后,数据框中已无重复行。
2025-03-31 12:42:58,673 - INFO - 开始执行 cluster_and_analyze 函数
2025-03-31 12:42:58,673 - INFO - 开始提取 purchase_history 中的 average_price 和 items 的长度
2025-03-31 12:43:03,260 - INFO - 提取完成
2025-03-31 12:43:03,263 - INFO - 选择的特征为: ['income', 'average_price', 'items_count']
2025-03-31 12:43:03,263 - INFO - 开始进行数据标准化
2025-03-31 12:43:03,285 - INFO - 数据标准化完成
2025-03-31 12:43:03,286 - INFO - 最优聚类数 k = 7
2025-03-31 12:43:03,286 - INFO - 开始使用最优聚类数 k = 7 进行 K-means 聚类
2025-03-31 12:43:03,854 - INFO - K-means 聚类完成
2025-03-31 12:43:03,854 - INFO - 开始分析每个聚类的特征
2025-03-31 12:43:03,880 - INFO - 聚类特征分析完成
2025-03-31 12:43:03,880 - INFO - 开始进行 PCA 降维以可视化聚类结果
2025-03-31 12:43:03,907 - INFO - PCA 降维完成
2025-03-31 12:43:03,908 - INFO - 开始绘制散点图可视化聚类结果
2025-03-31 12:43:11,944 - INFO - 将可视化结果保存到 /home/sunminhao/grade8_HOMEWORK/DataMining/Homework1/visualization/cluster_visualization.png
2025-03-31 12:43:57,380 - INFO - 可视化结果保存完成
2025-03-31 12:43:57,380 - INFO - cluster_and_analyze 函数执行结束
2025-03-31 12:43:57,480 - INFO - 每个聚类的特征分析:
2025-03-31 12:43:57,480 - INFO - income average_price items_count
cluster
0 764294.01 774.06 3.67
1 757003.71 246.23 3.48
2 251774.02 257.54 2.96
3 790086.81 485.85 8.42
4 303637.47 767.36 8.05
5 291742.06 244.93 8.02
6 260681.81 750.20 2.95