Skip to content

Гасенин Леонид. Технология SEQ-MPI. Проверка лексикографической упорядоченности двух строк. Вариант 26.#47

Merged
allnes merged 24 commits intolearning-process:masterfrom
Leontin16:gasenin_l_lex_dif
Dec 10, 2025
Merged

Гасенин Леонид. Технология SEQ-MPI. Проверка лексикографической упорядоченности двух строк. Вариант 26.#47
allnes merged 24 commits intolearning-process:masterfrom
Leontin16:gasenin_l_lex_dif

Conversation

@Leontin16
Copy link
Copy Markdown
Contributor

@Leontin16 Leontin16 commented Nov 17, 2025

Описание

  • Задача: Проверка лексикографической упорядоченности двух строк.
  • Вариант: 26.
  • Технология: SEQ-MPI
  • Описание:
    Реализовано лексикографическое сравнение двух строк в последовательном (SEQ) и параллельном (MPI) форматах.

Последовательная версия (SEQ) (ops_seq.cpp) является эталонной: она выполняет посимвольное сравнение, прерываясь при первом различии, и использует сравнение длин для обработки случаев, когда одна строка является префиксом другой.

Параллельная версия (MPI) (ops_mpi.cpp) использует декомпозицию данных:

  • Общий диапазон сравнения (максимальная длина строк) делится на блоки по числу MPI-процессов
  • Каждый процесс ищет первое различие только в своем блоке, возвращая его позицию (local_diff_pos) и результат (local_result)
  • Для определения глобально первой позиции различия и сбора результата используется двухэтапный паттерн редукции (MPI_Allreduce): сначала с операцией MPI_MIN для нахождения минимальной позиции, затем с операцией MPI_SUM для сбора результата от "победившего" процесса
  • Корректно обрабатываются граничные случаи: пустые строки, строки разной длины, и строки с различием в середине или конце

Проведено сравнение производительности, которое, как указано в отчете, дает ускорение до 3 раз для больших входных данных. Алгоритм корректно обрабатывает все входные данные и полностью совпадает с последовательной реализацией.

Чек-лист

  • Статус CI: Все CI-задачи (сборка, тесты, генерация отчёта) успешно проходят на моей ветке в моем форке
  • Директория и именование задачи: Я создал директорию с именем <фамилия>_<первая_буква_имени>_<короткое_название_задачи>
  • Полное описание задачи: Я предоставил полное описание задачи в теле pull request
  • clang-format: Мои изменения успешно проходят clang-format локально в моем форке (нет ошибок форматирования)
  • clang-tidy: Мои изменения успешно проходят clang-tidy локально в моем форке (нет предупреждений/ошибок)
  • Функциональные тесты: Все функциональные тесты успешно проходят локально на моей машине
  • Тесты производительности: Все тесты производительности успешно проходят локально на моей машине
  • Ветка: Я работаю в ветке, названной точно так же, как директория моей задачи (например, nesterov_a_vector_sum), а не в master
  • Правдивое содержание: Я подтверждаю, что все сведения, указанные в этом pull request, являются точными и достоверными

@codecov-commenter
Copy link
Copy Markdown

codecov-commenter commented Nov 17, 2025

Codecov Report

✅ All modified and coverable lines are covered by tests.
✅ Project coverage is 94.85%. Comparing base (92b24d3) to head (7fff3c2).
⚠️ Report is 1 commits behind head on master.

Additional details and impacted files
@@            Coverage Diff             @@
##           master      #47      +/-   ##
==========================================
+ Coverage   94.03%   94.85%   +0.82%     
==========================================
  Files          15       17       +2     
  Lines         486      564      +78     
  Branches      181      218      +37     
==========================================
+ Hits          457      535      +78     
  Partials       29       29              

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

🚀 New features to boost your workflow:
  • ❄️ Test Analytics: Detect flaky tests, report on failures, and find test suite problems.

@Leontin16
Copy link
Copy Markdown
Contributor Author

gonna get some rest rn

Comment thread tasks/gasenin_l_lex_dif/mpi/src/ops_mpi.cpp Outdated
GetInput() = in;
GetOutput() = 0;
}

Copy link
Copy Markdown
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

ValidationImpl ограничивает длину строк 10 000 000, тогда как performance-тест генерирует по 100 000 000 символов. Валидация вернет false и задача не запустится, перф-тест заведомо упадет. Нужно либо поднять лимит в валидации до используемых размеров, либо уменьшить входы в тесте/описании, чтобы ограничения и тестовые данные совпадали.

Comment thread tasks/gasenin_l_lex_dif/seq/src/ops_seq.cpp
Comment thread tasks/gasenin_l_lex_dif/seq/include/ops_seq.hpp Outdated
@Leontin16
Copy link
Copy Markdown
Contributor Author

roger that, i'll fix it as soon as possible

@Leontin16
Copy link
Copy Markdown
Contributor Author

Leontin16 commented Nov 24, 2025

done

@Leontin16
Copy link
Copy Markdown
Contributor Author

well now everythin is definitely ready

return true;
}

bool GaseninLLexDifMPI::RunImpl() {
Copy link
Copy Markdown
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

The string is not being sent from rank 0 to other ranks

Copy link
Copy Markdown
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

so ive checked the code and believe the current implementation in GaseninLLexDifMPI::RunImpl() correctly handles passed strings, including empty strings.
first of all, all processes get the actual string lengths (lengths[0] and lengths[1]) via MPI_Bcast of the lengths array.
after that all processes except rank 0 call str.resize(length). if the resulting length is zero, the local string is immediately set to empty and correctly initialized.
after all of that the basic MPI_Bcast for data strings (str.data()) only proceeds if the length is > 0. If the length is 0, no data transfer is necessary and the string is already synchronized (empty) due to a previous call to resize(0).
thus for an empty string (length = 0), no data transfer is required, since its state (being empty) is already synchronized.
if im wrong, please explain my mistake in more detail because I have no idea what's wrong there.

Copy link
Copy Markdown
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Sure, but are you sure that the whole string is required on each process?

Copy link
Copy Markdown
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

ok. gonna fix that.

Copy link
Copy Markdown
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

done.

lengths[1] = long_str2.length();
}

MPI_Bcast(lengths.data(), 2, MPI_UINT64_T, 0, MPI_COMM_WORLD); // NOLINT
Copy link
Copy Markdown
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Please, remove NOLINT

Copy link
Copy Markdown
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

done.

@Leontin16 Leontin16 requested review from allnes and aobolensk December 2, 2025 08:06
@allnes allnes merged commit 269892d into learning-process:master Dec 10, 2025
41 checks passed
AzotEye pushed a commit to AzotEye/ppc-2025-processes-informatics that referenced this pull request Dec 14, 2025
…доченности двух строк. Вариант 26. (learning-process#47)

## Описание

- **Задача**: Проверка лексикографической упорядоченности двух строк.
- **Вариант**: 26.
- **Технология**: SEQ-MPI
- **Описание**:
Реализовано лексикографическое сравнение двух строк в последовательном
(SEQ) и параллельном (MPI) форматах.

**Последовательная версия (SEQ)** (`ops_seq.cpp`) является эталонной:
она выполняет посимвольное сравнение, прерываясь при первом различии, и
использует сравнение длин для обработки случаев, когда одна строка
является префиксом другой.

**Параллельная версия (MPI)** (`ops_mpi.cpp`) использует **декомпозицию
данных**:
* Общий диапазон сравнения (максимальная длина строк) делится на блоки
по числу MPI-процессов
* Каждый процесс ищет **первое различие** только в своем блоке,
возвращая его позицию (`local_diff_pos`) и результат (`local_result`)
* Для определения **глобально первой** позиции различия и сбора
результата используется двухэтапный паттерн **редукции**
(`MPI_Allreduce`): сначала с операцией `MPI_MIN` для нахождения
минимальной позиции, затем с операцией `MPI_SUM` для сбора результата от
"победившего" процесса
* Корректно обрабатываются граничные случаи: пустые строки, строки
разной длины, и строки с различием в середине или конце

**Проведено сравнение производительности, которое, как указано в отчете,
дает **ускорение до 3 раз** для больших входных данных. Алгоритм
корректно обрабатывает все входные данные и полностью совпадает с
последовательной реализацией.**
## Чек-лист
<!--
Пожалуйста, убедитесь, что следующие пункты выполнены **до** отправки
pull request'а и запроса его ревью:
-->

- [x] **Статус CI**: Все CI-задачи (сборка, тесты, генерация отчёта)
успешно проходят на моей ветке в моем форке
- [x] **Директория и именование задачи**: Я создал директорию с именем
`<фамилия>_<первая_буква_имени>_<короткое_название_задачи>`
- [x] **Полное описание задачи**: Я предоставил полное описание задачи в
теле pull request
- [x] **clang-format**: Мои изменения успешно проходят `clang-format`
локально в моем форке (нет ошибок форматирования)
- [x] **clang-tidy**: Мои изменения успешно проходят `clang-tidy`
локально в моем форке (нет предупреждений/ошибок)
- [x] **Функциональные тесты**: Все функциональные тесты успешно
проходят локально на моей машине
- [x] **Тесты производительности**: Все тесты производительности успешно
проходят локально на моей машине
- [x] **Ветка**: Я работаю в ветке, названной точно так же, как
директория моей задачи (например, `nesterov_a_vector_sum`), а не в
`master`
- [x] **Правдивое содержание**: Я подтверждаю, что все сведения,
указанные в этом pull request, являются точными и достоверными

<!--
ПРИМЕЧАНИЕ: Ложные сведения в этом чек-листе могут привести к отклонению
PR и получению нулевого балла за соответствующую задачу.
-->
AleksndrSakharov pushed a commit to AleksndrSakharov/ppc-2025-processes-informatics that referenced this pull request Dec 16, 2025
…доченности двух строк. Вариант 26. (learning-process#47)

## Описание

- **Задача**: Проверка лексикографической упорядоченности двух строк.
- **Вариант**: 26.
- **Технология**: SEQ-MPI
- **Описание**:
Реализовано лексикографическое сравнение двух строк в последовательном
(SEQ) и параллельном (MPI) форматах.

**Последовательная версия (SEQ)** (`ops_seq.cpp`) является эталонной:
она выполняет посимвольное сравнение, прерываясь при первом различии, и
использует сравнение длин для обработки случаев, когда одна строка
является префиксом другой.

**Параллельная версия (MPI)** (`ops_mpi.cpp`) использует **декомпозицию
данных**:
* Общий диапазон сравнения (максимальная длина строк) делится на блоки
по числу MPI-процессов
* Каждый процесс ищет **первое различие** только в своем блоке,
возвращая его позицию (`local_diff_pos`) и результат (`local_result`)
* Для определения **глобально первой** позиции различия и сбора
результата используется двухэтапный паттерн **редукции**
(`MPI_Allreduce`): сначала с операцией `MPI_MIN` для нахождения
минимальной позиции, затем с операцией `MPI_SUM` для сбора результата от
"победившего" процесса
* Корректно обрабатываются граничные случаи: пустые строки, строки
разной длины, и строки с различием в середине или конце

**Проведено сравнение производительности, которое, как указано в отчете,
дает **ускорение до 3 раз** для больших входных данных. Алгоритм
корректно обрабатывает все входные данные и полностью совпадает с
последовательной реализацией.**
## Чек-лист
<!--
Пожалуйста, убедитесь, что следующие пункты выполнены **до** отправки
pull request'а и запроса его ревью:
-->

- [x] **Статус CI**: Все CI-задачи (сборка, тесты, генерация отчёта)
успешно проходят на моей ветке в моем форке
- [x] **Директория и именование задачи**: Я создал директорию с именем
`<фамилия>_<первая_буква_имени>_<короткое_название_задачи>`
- [x] **Полное описание задачи**: Я предоставил полное описание задачи в
теле pull request
- [x] **clang-format**: Мои изменения успешно проходят `clang-format`
локально в моем форке (нет ошибок форматирования)
- [x] **clang-tidy**: Мои изменения успешно проходят `clang-tidy`
локально в моем форке (нет предупреждений/ошибок)
- [x] **Функциональные тесты**: Все функциональные тесты успешно
проходят локально на моей машине
- [x] **Тесты производительности**: Все тесты производительности успешно
проходят локально на моей машине
- [x] **Ветка**: Я работаю в ветке, названной точно так же, как
директория моей задачи (например, `nesterov_a_vector_sum`), а не в
`master`
- [x] **Правдивое содержание**: Я подтверждаю, что все сведения,
указанные в этом pull request, являются точными и достоверными

<!--
ПРИМЕЧАНИЕ: Ложные сведения в этом чек-листе могут привести к отклонению
PR и получению нулевого балла за соответствующую задачу.
-->
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Projects

None yet

Development

Successfully merging this pull request may close these issues.

4 participants