Как се разкриват тайните на ръкописа на Войнич: разследване - Алтернативен изглед

Съдържание:

Как се разкриват тайните на ръкописа на Войнич: разследване - Алтернативен изглед
Как се разкриват тайните на ръкописа на Войнич: разследване - Алтернативен изглед

Видео: Как се разкриват тайните на ръкописа на Войнич: разследване - Алтернативен изглед

Видео: Как се разкриват тайните на ръкописа на Войнич: разследване - Алтернативен изглед
Видео: Ръкописът на Войнич 2024, Може
Anonim

Какво стои зад сензационната новина за ръкописа на Войнич и за руските учени, възможно ли е точно да се определи езикът от текста, доколко адекватни математици работят в „полето“на лингвистиката.

На 19 април руските медии разпространиха новини за „епохалното“откритие на руските математици: използвайки новия метод, учените не само доказаха смисъла на известния „ръкопис на Войнич“, но и успяха да установят, че той е написан на два езика и с изключение на буквите за гласните.

Ръкописът на Войнич е средновековен илюстриран ръкопис, закупен през 1912 г. от антиквара Вилфред Войнич. Създаден през 15 век (на базата на радиовъглероден анализ на пергамента - но повечето учени в момента не смятат самия текст за по-късна фалшификация), той е написан на непознат език с неизвестна азбука. Съдейки по илюстрациите, текстът се състои от тематични блокове: ботанически, астрономически, фармакологични и други. Сложността на декодирането на текста превърна ръкописа на Войнич в „свещения граал“за криптографи и обект на много изследвания, включително тези, използващи методите на големите данни.

Новината за ръкописа беше отчетена като нещо сензационно. Това веднага предизвика известно безпокойство. „Преди това всички опити за дешифриране на уникален документ и дори само за разбиране дали това е смислен текст се провалиха. 600 години безполезни усилия!.. Криптографи от ЦРУ и НСА, суперкомпютри и дори лекари от „окултни науки“подписаха пълната си импотентност. Последното съобщение от криптолога Гордън Ръг от университета в Кийл във Великобритания гласи: „Ръкописът на Voynich е фалшив. Такъв „сложен текст“е лесен за конструиране за всеки, който е запознат с прости методи за копиране “, се казва в статията.

Първо, смислеността на текста беше призната още през 70-те години на миналия век и няколко пъти потвърдена в проучвания от 2010 г., за които беше писано достатъчно подробно дори в местните медии. На второ място, откритието, предоставено на новините, е представено само под формата на институтски препринт, а не в статия в международно рецензирано списание (препринтът също е публикуван през 2016 г.).

Тези странности при представянето на материала ни принудиха да потърсим разяснения първо от автора на изследването, а след това и до независими експерти - лингвисти, които работят със статистически и математически методи, както и с декодиране на древни скриптове.

Лесно е да се напише формула, но е много скъпо да се извършва числен анализ

Промоционално видео:

Първо, накратко за същността на изследването. Авторите на препринта, математици от Московския физико-технически институт и Института по приложна математика на Руската академия на науките, разчитат на своите произведения, според които „честотното разпределение на текстовите символи е стабилна характеристика не на автора или предмета на текста, а на езика“. Тоест, използвайки набор, използвайки математически инструменти, е възможно да се определи на кой език е написан, поради факта, че всеки език има свой характерен "профил" (разпределение на експонента на Хърст). Освен това, като взеха тези методи за основа, учените установиха, че текстът на ръкописа е написан на смес от няколко езика. В същото време към него бяха добавени фалшиви интервали и бяха премахнати символите, обозначаващи гласните звуци.

Водещият автор на изследването Юрий Орлов (IPM RAS и MIPT) подчерта, че ръкописът на Войнич изобщо не е основната цел на тяхната работа. „Сензационният“ръкопис е само илюстрация на математическия метод за разпознаване на езици от текста - всъщност проблем за машинното обучение “, каза Орлов.

Самият ръкопис абсолютно не ни е интересен. Науката се позовава конкретно на статистиката на езиците. Чрез него можем да разберем на какъв език е написан този ръкопис. Но не какво пише там, това е важен момент. - Юрий Орлов. MIPT и Института по приложна математика на името на М. В. Келдиш

По отношение на езиковия метод, използван в работата, Орлов отбелязва, че самият анализ на честотата на комбинациите от букви в текстовете е добре познато нещо. Индикаторът на Хърст обаче е слабо известен на лингвистите, тъй като е трудно да се изчисли дори в математически план. Самата формула е лесна за писане, но численият анализ е много скъп. За това суперкомпютърът, разположен в института на името на М. В. Keldysh, подчертава математикът.

Изборът на индоевропейски езици за анализ се обяснява с факта, че всички те са много сходни, казва Орлов. Индикатори, разработени от математици, улесняват различаването на езиците в една и съща езикова група, но не и между семействата. Разбира се, теоретично е възможно да се извърши същата работа с други групи (Урал, Алтай или други), но стойността на анализа се крие в неговата пълнота, сигурен е Орлов. В случая на индоевропейските езици не е трудно да се въведе корпус от текстове за всеки език; по-трудно е да се направи с други семейства.

Връщайки се към ръкописа на Войнич, Орлов отбелязва, че той и колегите му цитират пет доказателства (логаритмичния профил на честотното подреждане на буквите в текста на един и няколко езика, разпределението на експонента на Хърст, спектралния портрет на матрицата на условните вероятности и други) на хипотезата за смесването на езиците в ръкописа и заличаването букви за гласни. Те категорично се дистанцират от „терена около ръкописа“, но представиха уникален резултат - отворен метод, статистически анализ с оценка на надеждността, който може да бъде проверен независимо.

„Заключението се обезценява от факта, че не разбираме от какъв материал са извлекли и от какво са проверили формулата си.“

Самото предположение, че текстът на ръкописа на Войнич е лишен от букви за гласни, с неправилно разположени интервали, е красиво и добро, отбелязва лингвистът Евгения Коровина, която се занимава с математическа статистика на езика (Институт по лингвистика, Руска академия на науките). Преди това никой не излагаше такава хипотеза. Тя например прекрасно обяснява защо има по-малко букви, отколкото би се очаквало за европейски текст. Но проблемът е, че авторите на изследването дори не посочват кои текстове на различни езици са сравнявали и какъв е обемът на тези тестове. В препринта се споменава огромен брой езици. Следователно изследването не може да се възпроизведе: ако вземете произволни текстове на едни и същи езици, не е факт, че ще излязат едни и същи модели.

Мария Молина, специалист по корпусни методи за изучаване на древни езици (Институт по лингвистика, РАН), е съгласна с Коровина. Според нея новите методи за обработка на лингвистични данни помагат да се получи информация за това, което преди е било затворено за изследователите на езици. Въпреки това, лошо подготвеният входящ материал често дискредитира дори най-добрите техники за обработка на данни.

Изводът се обезценява от факта, че не разбираме върху какъв материал са рисували и върху какво са проверявали формулата си. За моя материал със сигурност знам, че има малка методологична грешка - и получавам критично различни числа. - Мария Молина. Институт по лингвистика РАН

„Вътре - боклук навън“, добавя Молина (GIGO е принцип в компютърните науки, което означава, че неправилните входни данни ще доведат до неправилни резултати, дори ако самият алгоритъм е правилен, - забележете Indicator. Ru).

„Статистическите методи все още са намеци за резултати, а не за резултати.“

Алберт Давлетшин (служител на Центъра за лингвистични сравнителни изследвания към Института за сравнителни изследвания на Руския държавен хуманитарен университет, изучава езиците на маите и полинезийските) говори още по-остро. Ако авторите на препринта не са искали да дешифрират ръкописа на Войнич, защо го правят? И по-нататък, ако говорим конкретно за декодирането на неизвестен текст, възниква въпрос след въпрос: „Няма първоначални данни за писането - какъв тип писмо? Как се получават различните транскрипции? Колко знака? Какво лежи в основата на съществуващите предположения за същността на писането? Каква е дължината на думата, разделена с интервали и без интервали? Какво означават интервалите? Колко голям е речникът? Какво е съотношението на подписите и чертежите?

Отначало се оказва, че текстът е датски и само датски (а това е исторически невъзможно, за което няма и дума в произведението). Тогава се оказва, че текстът е на два непознати езика (проверката на този етап се оказва невъзможна и се приема на вяра). Освен това има много консервативни начини да се покаже, че две (големи) страници са написани с една буква, но на различни езици, без да се прибягва до сложни математически модели. И накрая, ако гласните бъдат премахнати от текста, доколко това се потвърждава от стандартни, отдавна познати методи (например Sukhotin, Shevoroshkina и Ventris)?"

Давлетшин критикува и нечувствителността към филологията и историята, характерна за този вид изследвания:

Това, което виждам в текста: често има хора, които искат да вземат източника X и да забравят, че той е източник и съществува в някакъв исторически, включително лингвистичен контекст, и по някакъв начин да преброят нещо в него. Интересна е хипотезата, че в ръкописа има повече от един език. Но по някакъв начин бихте могли да го покажете човешки. Статистическите методи все още са намеци за резултати, а не за резултати. -Алберт Давлетшин. Център за лингвистични сравнителни изследвания, IVKA RSUH

Няма критерий за разграничаване на интересни резултати от ужасни

По-балансирана позиция зае Георги Старостин, експерт по сравнително историческо езикознание (RSUH). Той се интересуваше повече от това колко полезни са новите математически методи за решаване на проблеми, пред които са изправени лингвистите. „Моделът, представен в статията, прави странно впечатление. От една страна, изглежда, че принадлежи към категорията „слепи“, анализирайки текстови данни без предварителни преценки за структурата на азбуката (например, диграфи, като английския ch, sh, трябва да се считат за комбинации от две букви, въпреки че това всъщност е една звук). От друга страна, гласните са изхвърлени от сравняваните низове, които според авторите на текста съдържат по-малко информация и по-скоро добавят шум. Като цяло тестовата база очевидно е много малка, не е възможно да се говори за нещо фундаментално на толкова много езици."

Резултатите от сравнението на индоевропейски и уралски езици, представени в сравнителна таблица 3 в статията, не вдъхват особен оптимизъм у Старостин. Някои показатели за степента на близост на езиците се улавят добре (например вътрегермански или интраромански връзки), някои лошо (например, методологията вече не идентифицира индоевропейското семейство). Основното е, че няма критерий за разграничаване на интересни резултати от ужасни. В най-добрия случай методът дава възможност да се отделят малки езикови групи (макар че дори тук той не работи между тясно свързани финландски и естонски), но всички тези групи могат да бъдат надеждно идентифицирани без него.

Таблица 3 от препринта, която представя резултатите, сравняващи индоевропейски и уралски езици. Същият цвят в таблицата. Идентифицирани са 3 групи езици, които са двойно близки (по смисъла на нормата L1 на разпределенията на подредените честоти в текстове без гласна). Някои неочаквано близки езикови двойки са маркирани в червено, като немски / унгарски, английски / естонски, латински / баски и гръцки / фински. Автори на препринта: Арутюнов А. А., Борисов Л. А., Зенюк Д. А., Ивченко А. Ю., Кирина-Лилинская Е. П., Орлов Ю. Н., Осминин К. П., Федоров С. Л., Шилин С. А
Таблица 3 от препринта, която представя резултатите, сравняващи индоевропейски и уралски езици. Същият цвят в таблицата. Идентифицирани са 3 групи езици, които са двойно близки (по смисъла на нормата L1 на разпределенията на подредените честоти в текстове без гласна). Някои неочаквано близки езикови двойки са маркирани в червено, като немски / унгарски, английски / естонски, латински / баски и гръцки / фински. Автори на препринта: Арутюнов А. А., Борисов Л. А., Зенюк Д. А., Ивченко А. Ю., Кирина-Лилинская Е. П., Орлов Ю. Н., Осминин К. П., Федоров С. Л., Шилин С. А

Таблица 3 от препринта, която представя резултатите, сравняващи индоевропейски и уралски езици. Същият цвят в таблицата. Идентифицирани са 3 групи езици, които са двойно близки (по смисъла на нормата L1 на разпределенията на подредените честоти в текстове без гласна). Някои неочаквано близки езикови двойки са маркирани в червено, като немски / унгарски, английски / естонски, латински / баски и гръцки / фински. Автори на препринта: Арутюнов А. А., Борисов Л. А., Зенюк Д. А., Ивченко А. Ю., Кирина-Лилинская Е. П., Орлов Ю. Н., Осминин К. П., Федоров С. Л., Шилин С. А.

И накрая, интересна идея е да се определи генетичната характеристика на даден език чрез разпределението на степента на Хърст и, може би, дори да се стигне до някакъв научен момент. Но това ще изисква обработка на голям брой текстове на различни езици. И проблемът възниква веднага: много езици са неписани и колко правилно е да се сравняват азбучните системи за запис с фонетични транскрипции, остава неясно. Ще има много малко практически смисъл от тази идея, сигурен е Старостин. В най-добрия случай наистина може да се приложи при инциденти като ръкописа на Войнич, когато има хипотеза, че някои езици със стандартна азбучна писменост са криптирани съгласно определени принципи (например с изтриването на гласните и т.н.). В света обаче има много малко подобни инциденти.

Обобщаване

Какво е в долния ред? Дискусията около изследванията на IPM и MIPT разкри дълбока разрив между лингвистичната общност (дори и тези, използващи статистически методи) и „външни лица“по отношение на специалистите по лингвистика, решили да приложат своите математически инструменти към лингвистичен материал.

Фактът, че математиците не искат да работят заедно с лингвистите, не само поражда груби гафове, които след това мигрират към медиите (например баският език в препринта се нарича индоевропейски, има фраза „гласни букви“). Красотата на моделите и изчислителната мощ на суперкомпютрите всъщност се обезценяват от грешки в точката на влизане. Отново, с желанието и откритостта на контактите с колеги от друга дисциплина, тези грешки лесно биха могли да бъдат избегнати.

Вижте самия ръкопис на Войнич тук.

Препоръчано: