В Части 1 я выявил две причины не читаемости текстов, повторюсь: 1. Неосознанность при замене слов. Пример: окончание – син. завершение. Хорошо если это «окончание матча», а если «окончание слова»? 2. Великий и могучий русский язык, со своими словоформами. Род, падеж, число, окончания, суффиксы, корни и т. д. Где выход и какие перспективы? Самое вкусное я оставил на десерт. п.2 решению поддается, при должном владении программированием, можно научить комп менять окончания у слов (word делает это «на хорошо»). В большинстве случаев будет работать корректно. Но, что делать с п.1? Моя идея. Пришла мне в голову, ничего подобного не встречал, но не исключено что не я первый додумался до этого. Если она не нова, пишите в комментарии. Расстановка баллов. Возьмем любое предложение. «На днях в книжные магазины Бразилии поступила книга писателя Фернандо Мораиса «Маг».» Возьмем слово «поступила». Синонимы: устроилась, зачислилась, определилась, попала, приткнулась. Теперь расставим балы следующим образом, по близости позиции слов к слову «поступила». «На днях (0.125) в книжные(0.25) магазины(0.5) Бразилии(1) поступила книга (1) писателя(0.5) Фернандо(0.25) Мораиса(0.125) «Маг(0.06)».» Частота встречаемости. Зачем мы это делали? Представьте себе огромную таблицу, из слов русского языка, на определенную тему: По горизонтали и вертикали идут слова. На пересечении слов мы проставляем баллы. Если слово «поступила» встречается рядом с: днях, книжные, магазины и т. д., то скорее всего оно подходит по контексту. За это мы ставим баллы. В этом и вся соль. Мы определяем связь слов. При обращении к базе синонимов мы получаем их список. Потом каждое слово из списка проверяется по таблице встречаемости, со словами из предложения. Что мы имеем в результате, в идеале? Устроилась 0 Зачислилась 1 Определилась 0 Попала 5.3 (может быть любое число) Приткнулась 0 Подставляем слово «попала», и кричим «ура!». Тут все дело упирается в подбор исходного материала, статейной базы. Надо научить комп, чтобы заполнить базу. Зато в будущем, можно использовать и пополнять ее. Как вариант такой базы, XML запросы для поисковиков, у яндекса есть такая возможность. Можете посмотреть XML-игры. Они работают по схожему принципу. Вводите название предмета, а в результате получаете его свойство, например цвет. Опять же все основано на частоте встречаемости двух слов в контексте. Минус этого варианта в его «муссорности» и отсутствии единой тематики. Старался объяснить, как можно доходчивее. Интересно услышать ваше мнение. Что вы скажете по данному методу? Стоит ли браться за реализацию? Автор: Дробенков Алексей
Понравилась статья? Получай обновления и будь всегда в курсе событий!