В Части 1 я выявил две причины не читаемости текстов, повторюсь: 1. Неосознанность при замене слов. Пример: окончание – син. завершение. Хорошо если это «окончание матча», а если «окончание слова»? 2. Великий и могучий русский язык, со своими словоформами. Род, падеж, число, окончания, суффиксы, корни и т. д. Где выход и какие перспективы? Самое вкусное я оставил на десерт. п.2 решению поддается, при должном владении программированием, можно научить комп менять окончания у слов (word делает это «на хорошо»). В большинстве случаев будет работать корректно. Но, что делать с п.1? Моя идея. Пришла мне в голову, ничего подобного не встречал, но не исключено что не я первый додумался до этого. Если она не нова, пишите в комментарии. Расстановка баллов. Возьмем любое предложение. «На днях в книжные магазины Бразилии поступила книга писателя Фернандо Мораиса «Маг».» Возьмем слово «поступила». Синонимы: устроилась, зачислилась, определилась, попала, приткнулась. Теперь расставим балы следующим образом, по близости позиции слов к слову «поступила». «На днях (0.125) в книжные(0.25) магазины(0.5) Бразилии(1) поступила книга (1) писателя(0.5) Фернандо(0.25) Мораиса(0.125) «Маг(0.06)».» Частота встречаемости. Зачем мы это делали? Представьте себе огромную таблицу, из слов русского языка, на определенную тему: По горизонтали и вертикали идут слова. На пересечении слов мы проставляем баллы. Если слово «поступила» встречается рядом с: днях, книжные, магазины и т. д., то скорее всего оно подходит по контексту. За это мы ставим баллы. В этом и вся соль. Мы определяем связь слов. При обращении к базе синонимов мы получаем их список. Потом каждое слово из списка проверяется по таблице встречаемости, со словами из предложения. Что мы имеем в результате, в идеале? Устроилась 0 Зачислилась 1 Определилась 0 Попала 5.3 (может быть любое число) Приткнулась 0 Подставляем слово «попала», и кричим «ура!». Тут все дело упирается в подбор исходного материала, статейной базы. Надо научить комп, чтобы заполнить базу. Зато в будущем, можно использовать и пополнять ее. Как вариант такой базы, XML запросы для поисковиков, у яндекса есть такая возможность. Можете посмотреть XML-игры. Они работают по схожему принципу. Вводите название предмета, а в результате получаете его свойство, например цвет. Опять же все основано на частоте встречаемости двух слов в контексте. Минус этого варианта в его «муссорности» и отсутствии единой тематики. Старался объяснить, как можно доходчивее. Интересно услышать ваше мнение. Что вы скажете по данному методу? Стоит ли браться за реализацию? Говорят что точечный массаж очень полезен для тела. А SEO блог полезно почитать для ума
Понравилась статья? Получай обновления и будь всегда в курсе событий!