chore: add 3 more steps

suslovnikita · suslovnikita · commit 6f67219b1078 · 2024-04-29T15:57:51.000+03:00
diff --git a/README.md b/README.md
@@ -98,7 +98,7 @@ head -n N data_large.txt > dataN.txt # create smaller file from larger (take N f
 - [x] Построить и проанализировать отчёт `ruby-prof` в режиме `Flat`;
 - [x] Построить и проанализировать отчёт `ruby-prof` в режиме `Graph`;
 - [x] Построить и проанализировать отчёт `ruby-prof` в режиме `CallStack`;
-- [ ] Построить и проанализировать отчёт `ruby-prof` в режиме `CallTree` c визуализацией в `QCachegrind`;
+- [x] Построить и проанализировать отчёт `ruby-prof` в режиме `CallTree` c визуализацией в `QCachegrind`;
 - [x] Построить дамп `stackprof` и проанализировать его с помощью `CLI`
 - [x] Построить дамп `stackprof` в `json` и проанализировать его с помощью `speedscope.app`
 - [x] Профилировать работающий процесс `rbspy`;
diff --git a/case-study.md b/case-study.md
@@ -68,25 +68,37 @@
 
 ### Находка №5
 - `ruby-prof` в режиме `Graph` показывает, что точкой роста является `27.07%	16.32%	3.99	2.41	0.00	1.58	846230	<Class::Date>#parse`, это строка `user.sessions.map{|s| s['date']}.map {|d| Date.parse(d)}.sort.reverse.map { |d| d.iso8601 }`
-- вместо `Date.parse(d)` используем `Date.strptime(d, '%Y-%m-%d')` (заранее известен формат). Даты часто повторяются, используем мемоизацию для уже распаршенных дат.
-- время выполнения программы для 1кк входных данных сократилось с 10с до с 7.8c
+- поскольку строки уже находятся в формате iso8601, это позволяет использовать строки для сортировки не преобразуя их в даты: убираем парсинг дат, с последующим преобразованием в iso8601.
+- время выполнения программы для 1кк входных данных сократилось с 10с до с 7.5c
 - исправленная проблема перестала быть главной точкой роста.
 
 ### Находка №6
 - `ruby-prof` в режиме `CallStack` показывает, что точкой роста является `7.20% (15.82%) Array#include? [846230 calls, 846230 total]`
 - вместо формирования уникальных браузеров через each, сделаем `uniqueBrowsers = sessions.map { |session| session['browser'] }.uniq`.
-- время выполнения программы для 1кк входных данных сократилось с 7.8 до с 7.3c
+- время выполнения программы для 1кк входных данных сократилось с 7.5 до с 6.9c
 - исправленная проблема перестала быть главной точкой роста.
 
 ### Находка №7
-- `ruby-prof` в режиме `CallStack` показывает, что точкой роста является `2.22% (14.64%) String#upcase [846230 calls, 2331849 total]` в контексте `45.05% (45.05%) Object#collect_stats_from_users`
-- вместо фомирования `upcase` версий браузеров трижды для каждого юзера, сделаем это единожды в начале итерации: `upcased_browsers = user.sessions.map{|s| s['browser'].upcase }` и далее будем переиспользовать этот результат.
-- время выполнения программы для 1кк входных данных сократилось с 7.3 до с 6.9c
+- `ruby-prof` в режиме `CallGrind` показывает, что точкой роста является `Object::collect_stats_from_users`-> `Array::map`->`String::upcase`
+- поскольку используется только `upcase` версия браузера, при парсинге сессия сразу записываем `upcase` версию. Поскольку не так много видов браузеров относительно общего количества сессий, используем мемоизацию.
+- время выполнения программы для 1кк входных данных сократилось с 6.9 до с 6.4c
+- исправленная проблема перестала быть главной точкой роста.
+
+### Находка №8
+- `ruby-prof` в режиме `CallGrind` показывает, что точкой роста является `Array::each`->`Array::each`->`Object::parse_session`->`String::split`
+- делаем `split` только единожды для каждой строчки, в `parse_user`, `parse_session` передаем уже массив, а не строку
+- время выполнения программы для 1кк входных данных сократилось с 6.4 до с 5.4c
+- исправленная проблема перестала быть главной точкой роста.
+
+### Находка №9
+- `ruby-prof` в режиме `CallGrind` показывает, что точкой роста является `Object::collect_stats_from_users`->`Array::each`->`Array::map`->`String::to_i`
+- поскольку используется только целочисленное значение `time`, делаем преобразование `to_i` один раз в `parse_session`, а не дважды в `collect_stats_from_users`.
+- время выполнения программы для 1кк входных данных сократилось с 5.4 до с 5c
 - исправленная проблема перестала быть главной точкой роста.
 
 ## Результаты
 В результате проделанной оптимизации наконец удалось обработать файл с данными.
-Удалось улучшить метрику системы с 4.7 дней до 13 секунд и уложиться в заданный бюджет.
+Удалось улучшить метрику системы с 4.7 дней до 24 секунд и уложиться в заданный бюджет.
 
 ## Защита от регрессии производительности
 Для защиты от потери достигнутого прогресса при дальнейших изменениях программы добавил два теста: прогон на полных данных до 15 секунд, проверка на линейную асимптотику
diff --git a/spec/task-1_spec.rb b/spec/task-1_spec.rb
@@ -2,7 +2,7 @@
 
 require 'rspec'
 require 'rspec-benchmark'
-require_relative 'task-1'
+require_relative '../task-1'
 
 RSpec.configure do |config|
   config.include RSpec::Benchmark::Matchers
diff --git a/task-1.rb b/task-1.rb
@@ -13,8 +13,7 @@ def initialize(attributes:, sessions:)
   end
 end
 
-def parse_user(user)
-  fields = user.split(',')
+def parse_user(fields)
   parsed_result = {
     'id' => fields[1],
     'first_name' => fields[2],
@@ -23,13 +22,12 @@ def parse_user(user)
   }
 end
 
-def parse_session(session)
-  fields = session.split(',')
+def parse_session(fields)
   parsed_result = {
     'user_id' => fields[1],
     'session_id' => fields[2],
     'browser' => fields[3],
-    'time' => fields[4],
+    'time' => fields[4].to_i,
     'date' => fields[5],
   }
 end
@@ -47,11 +45,16 @@ def work
 
   users = []
   sessions = []
+  upcased_browser ||= {}
 
   file_lines.each do |line|
     cols = line.split(',')
-    users << parse_user(line) if cols[0] == 'user'
-    sessions << parse_session(line) if cols[0] == 'session'
+    users << parse_user(cols) if cols[0] == 'user'
+
+    if cols[0] == 'session'
+      cols[3] = upcased_browser[cols[3]] || (upcased_browser[cols[3]] = cols[3].upcase)
+      sessions << parse_session(cols)
+    end
   end
 
   # Отчёт в json
@@ -83,7 +86,6 @@ def work
   report['allBrowsers'] =
     sessions
       .map { |s| s['browser'] }
-      .map { |b| b.upcase }
       .sort
       .uniq
       .join(',')
@@ -102,30 +104,23 @@ def work
   report['usersStats'] = {}
 
   collect_stats_from_users(report, users_objects) do |user|
-    upcased_browsers = user.sessions.map{|s| s['browser'].upcase }
-
     {
       # Собираем количество сессий по пользователям
       'sessionsCount' => user.sessions.count,
       # Собираем количество времени по пользователям
-      'totalTime' => user.sessions.map {|s| s['time']}.map {|t| t.to_i}.sum.to_s + ' min.',
+      'totalTime' => user.sessions.map {|s| s['time']}.sum.to_s + ' min.',
       # Выбираем самую длинную сессию пользователя
-      'longestSession' => user.sessions.map {|s| s['time']}.map {|t| t.to_i}.max.to_s + ' min.',
+      'longestSession' => user.sessions.map {|s| s['time']}.max.to_s + ' min.',
       # Браузеры пользователя через запятую
-      'browsers' => upcased_browsers.sort.join(', '),
+      'browsers' => user.sessions.map {|s| s['browser']}.sort.join(', '),
       # Хоть раз использовал IE?
-      'usedIE' => upcased_browsers.any? { |b| b =~ /INTERNET EXPLORER/ },
+      'usedIE' => user.sessions.map{|s| s['browser']}.any? { |b| b =~ /INTERNET EXPLORER/ },
       # Всегда использовал только Chrome?
-      'alwaysUsedChrome' => upcased_browsers.all? { |b| b =~ /CHROME/ },
+      'alwaysUsedChrome' => user.sessions.map{|s| s['browser']}.all? { |b| b =~ /CHROME/ },
       # Даты сессий через запятую в обратном порядке в формате iso8601
-      'dates' => user.sessions.map{|s| s['date']}.map {|d| parse_date(d)}.sort.reverse.map { |d| d.iso8601 },
+      'dates' => user.sessions.map{|s| s['date']}.sort { |d1, d2| d2 <=> d1 },
     }
   end
 
   File.write('result.json', "#{report.to_json}\n")
 end
-
-def parse_date(date)
-  @dates ||= {}
-  @dates[date] || (@dates[date] = Date.strptime(date, '%Y-%m-%d'))
-end
diff --git a/test/task-1_test.rb b/test/task-1_test.rb
@@ -1,4 +1,4 @@
-require_relative 'task-1'
+require_relative '../task-1'
 require 'minitest/autorun'
 
 

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-require_relative 'task-1'`
	`1`	`+require_relative '../task-1'`
`2`	`2`	`require 'minitest/autorun'`
`3`	`3`
`4`	`4`