"Поиск по архивам" Яндекса теперь позволяет искать тексты с дореволюционной орфографией. Об этом сообщает пресс-служба Яндекса.
До прихода к власти в России Большевиков орфографические правила русского языка были другими. Употреблялась буква "i" и ряд других знаков, по-другому писались некоторые окончания и суффиксы, например "Яблоки са́маго лу́чшаго сорта".
Реформа, разработка которой проходила и до революции, упростила письменный русский язык и избавила его от ряда атавизмов.Сервис Яндекса "Поиск по архивам" обеспечивает доступ к 2,5 млн страниц архивных документов, расшифрованных в текст. Новая версия его алгоритма может учитывать дореформенные особенности начертания букв и орфографии, позволяя искать необходимую информацию по каталогу или через строку поиска.
Специалисты компании обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII - XIX веков и десятков миллионов сгенерированных примеров. Сами материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. "Поиск по архивам" повысит эффективность работы историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье.
Первым представленным в сервисе фондом стал Главархив Москвы, именно на его материалах разработчики обучали нейросеть.
Выбор пола ребенка и клонирование людей: что вы думаете по спорным вопросам биоэтики? Пройдите опрос "Газеты.Ru".
Свежие комментарии