Идеология

«Идеология корпуса»: фиксирующий, а не нормативный

Создавая корпус, мы руководствуемся целью включить в него если не всё изданное к настоящему моменту на бамана, то, по крайней мере, весьма существенную часть печатной продукции, а также какое-то количество неизданных текстов (письма и т.п.). В ситуации, когда орфографическая норма бамана остаётся весьма слабо проработанной (единственными официальными документами являются немногословные издания Guide de transcription), встаёт вопрос: должны ли мы, вводя тексты в корпус, приводить их в соответствие с имеющимися (пусть и недостаточно проработанными и не дающими ответы на все вопросы) правилами орфографии, или нет?

Среди исследовательских задач, которые могут стоять перед пользователями Корпуса, есть и такие (весьма немаловажные): насколько орфографическая норма, формируемая официальными органами языковой политики Мали (DNAFLA-ILAB, Министерство образования), влияет на реальную языковую практику? В какой мере диалектные формы, отвергнутые лингвистами-нормализаторами, продолжают употребляться авторами публикуемых (а также непубликуемых) текстов?

Если мы решим идти по пути жёсткой нормализации при включении текстов в Корпус, то мы закроем возможность исследования в этой сфере (точнее – значительно усложним такое исследование; оно всё же останется возможным путём сравнения исходного текста, хранящегося в корпусном архиве, с текстом «нормализованным»).

Вторым недостатком такого решения является его трудноисполнимость: как уже сказано, имеющиеся официальные документы по нормализации орфографии недостаточны, очень многие реально существующие проблемы в них не затронуты. В результате нам всё равно пришлось бы или оставлять тексты «недонормализованными», или принимать орфографические решения, выходящие за рамки нормативных документов – на что, очевидно, у нас нет полномочий.

В свете сказанного представляется, что второй путь – отказ от нормализации текстов – оказывается более перспективным. Он позволит представить в Корпусе реальную языковую практику бытования письменной формы бамана – что, кстати сказать, как раз позволит провести исследования, на основании которых можно будет принять более обоснованные решения по уточнению правил орфографии.

Таким образом, все тексты Корпуса будут представлены в виде нескольких строк. В первой строке текст воспроизводится в той орфографии, что и в исходной публикации, без исправления даже самых очевидных опечаток. Во второй строке даётся результат обработки парсером (для текстов со снятой омонимии – исправленный также оператором, при этом оператор исправляет лишь очевидные опечатки). В третьей строке даются глоссы, при этом для неодноморфемных словоформ ещё ниже даётся результат поморфемного анализа.

При этом для форм, имеющих более одного фонетического варианта, каждый вариант будет рассматриваться как «поисковый».