Русские Вести

«Нужно взять либо цифровой фотоаппарат, либо смартфон, оторвать пятую точку от мягкого кресла и пойти в лес»


Алексей Петрович Серегин — куратор гербария МГУ им. М. В. Ломоносова / ©А. Серегин, RTG

Ботаника — одна из старейших наук с богатыми традициями, однако сейчас ее классические методы дополняются новыми, самыми современными и высокотехнологичными. Для науки о растениях это означает смену парадигм и потрясающие новые возможности. Поэтому новым собеседником Naked Science стал Алексей Петрович Серёгин — выдающийся российский ботаник, доктор биологических наук, специалист по гербарному делу и флористике, ведущий научный сотрудник и куратор гербария МГУ имени М. В. Ломоносова. Разговор пойдет о ботанике третьего тысячелетия, гербарии первого российского университета — как «‎физическом», так и цифровом, а также о том, как каждый из нас может помочь развитию науки с помощью своего смартфона — а заодно хорошо провести время на свежем воздухе.

[Naked Science]: Недавно прочитал новость о том, что в Цифровом гербарии МГУ пройдена отметка один миллион образцов. Поздравляем с этим достижением вас и ваш коллектив. А когда появилась первая запись цифрового гербария?

[Алексей Серёгин]: Сразу скажу, что журналисты, как всегда, что-то немножко подшаманили. Я точно даже не помню, когда мы прошли миллионный образец. У нас был немножко другой информационный повод, но в итоге они как-то зацепились за эту цифру. В общем, что касается первого образца, то физически он был отсканирован где-то в конце мая 2015-го, нам в Московский университет завезли сканеры по программе «Ноев ковчег» (Проект Московского университета «‎Ноев ковчег» посвящен созданию многофункционального сетевого хранилища биологического материала. — NS), и мы начали сканировать.

А сам портал появился благодаря усилиям программистов проекта В. П. Скулачева в октябре 2016 года. Мы считаем 15 октября 2016 года днем рождения Цифрового гербария МГУ. В тот день, когда мы вышли в общественное пространство, в гербарий Московского университета было загружено 150-160 тысяч образцов. Это примерно соответствует отделу Сибири и Дальнего Востока. Мы сразу открыли доступ к довольно крупной коллекции, спустя еще пару месяцев добавили отдел Восточной Европы, и уже к концу 2016 года у нас было полмиллиона образцов в открытом доступе. Сама физическая коллекция при этом росла параллельно. По-моему, это был июнь 2016 года, когда к «‎физической‎» коллекции гербария Московского университета был добавлен миллионный образец.

[NS]: А вы можете прикинуть, сколько сейчас в цифровой и в «‎офлайн-версии» гербария находится образцов?

[АС]: Да. Это точное знание. Физическая коллекция гербария Московского университета по итогам новых включений 2022 года насчитывает один миллион 109 тысяч образцов. Это 62-й по объемам гербарий мира. Можно сказать, что наша коллекция очень большая — у нас свыше миллиона образцов. Но одновременно она и очень маленькая, потому что есть гербарии, которые больше нашего. А что касается цифрового гербария МГУ, то с 2019 года это две совершенно разные ипостаси. Цифровой гербарий МГУ стал консорциумом в 2019 году, общей платформой, где на сегодняшний день есть девять российских гербариев — совершенно разных: академические, университетские, музейные. Они публикуют свои коллекции на мобильной платформе с едиными протоколами обработки и ввода данных. Поэтому в Цифровом гербарии МГУ данных гораздо больше. На сегодняшний день это один миллион 250 тысяч образцов (за счет вклада консорциума).

[NS]: То есть существуют гербарии, которые физически находятся в других городах, но по сути они как бы поглощены онлайн-гербарием МГУ?

[АС]: Нет, не то чтобы поглощены. Площадка называется «Цифровой гербарий МГУ», но по сути это консорциум. Потому что все коллекции уникальные, а данные GBIF (Global Biodiversity Information Facility) — они мигрируют с нашей платформы как бы под маркой этих девяти организаций.

Гербарий МГУ пополняется образцами из других гербариев — таким как этот, из Института леса / ©Пресс-служба МГУ

[NS]: А вы — заведующий самим гербарием МГУ им. М. В. Ломоносова?

[АС]: Ну… куратор. По званию я старше всех: ведущий научный сотрудник. Так что я, как старший по званию, принял командование — можно так сформулировать.

[NS]: Сколько у вас подчиненных, если не секрет?

[АС]: Сейчас посчитаю: раз, два, три, четыре… пятеро. К сожалению, всего пятеро.

[NS]: Но коллекторов (людей, собирающих гербарные образцы) намного больше?

[АС]: Да, но это в «‎физическом» гербарии. У нас есть еще четыре оператора данных Цифрового гербария МГУ — именно те люди, которые работают там. И по большому счету мы же когда отсканировали гербарий и запустили платформу Цифрового гербария МГУ… получилось так, что мы создали второй гербарий. И ему тоже нужны руки. Например, нужно вводить данные с этикеток. Даже с учетом «умных решений» все равно это труд.

[NS]: Действительно, ведь у вас в гербарии наверняка имеются образцы не только из России, но и со всего мира? Откуда больше образцов?

[АС]: У нас две трети гербария — Россия, и треть — другие страны. В России, опять же, у нас есть территории, с которых данных поступает больше. «Данных» — в смысле образцов. Например, если мы возьмем европейскую часть, то тут все проще: чем ближе к Москве, тем больше. Это региональная специализация любой коллекции, она существует. Московской области много. Регионов, которые окружают Московскую область, тоже немало. С Кавказа сборов особенно много из Краснодарского края и Карачаево-Черкесии. Отдельная коллекция — крымская: 34 тысячи листов. И еще из азиатской части России много сборов: из Таймыра, с Алтая, Саян и Дальнего Востока. Если брать зарубежные коллекции, то, конечно же, это республики бывшего Советского Союза — практически отовсюду действительно много сборов. Если брать дальнее зарубежье, то, пожалуй, в последние годы выделяется Вьетнам — благодаря исследовательским миссиям коллег.

[NS]: МГУ особенно активно работает в этой стране — используя в качестве базы Российско-Вьетнамский исследовательский центр. Если не ошибаюсь, там регулярно проводят сбор образцов?

[АС]: Да, там и практики студентов время от времени бывали, кто-то фактически там работает постоянно или по контрактам. В общем, да, работа идет.

[NS]: Существует ли какой-то пьедестал почета по объему гербариев — «‎физических‎» и цифровых?

[АС]: Есть рейтинг, который долгое время существовал в виде печатного каталога гербариев мира. Примерно с 1960-х он начал публиковаться, по-моему, выдержал семь или восемь печатных изданий. Называется Index Herbariorum, и там [мировые гербарии] в заявительном порядке, без всякой верификации — как коллекция сама о себе заявляет, сколько чего у нее, столько образцов в коллекциях. Постепенно, с развитием компьютерных технологий наладился сугубо бухгалтерский учет образцов, и уже современная онлайн-версия Index Herbariorum, с одной стороны, стала точнее, а с другой стороны, ее стало возможно обновлять более или менее регулярно. По поводу самого большого гербария в мире… На первом месте — Музей естественной истории в Париже, на втором месте — Королевский ботанический сад Кью (это Великобритания), и на третьем месте — Нью-Йоркский ботанический сад, и где-то рядышком находится Ботанический институт имени В. Л. Комарова (БИН) РАН в Санкт-Петербурге. Вот четыре самых крупных гербария, с которыми все более или менее понятно.

[NS]: То есть БИН РАН — это такой «‎тяжеловес‎» на мировой арене?

[АС]: Да, потому что с ним связаны фактически все академические экспедиции XIX века и XX века, до начала создания мощных академических центров уже в послевоенное время. Академические институты, которые занимались ботаникой, были созданы в 1960-е: в Новосибирске, во Владивостоке и в Ташкенте. И начиная с этого времени приток всех коллекций в БИН прекратился. До этого момента вообще все туда шло — все академические коллекции попадали в Петербург, и уже к концу XIX века там было несколько миллионов образцов. Это действительно была очень крупная коллекция. Она и остается очень крупной, очень важной. Там десятки известнейших ботаников работали. И основные определители флор изданы. Кстати, БИН цифруется. Там уже 150 тысяч образцов оцифровано. Это, конечно, по сравнению с общим числом в их коллекции немного, но работа идет очень ритмично. Это хорошо.

А что касается цифрового гербария, то это, опять же, Париж. Он и самый большой гербарий в мире, он же и самый большой цифровой гербарий в мире. Многое оцифровано в Лейдене, в Нью-Йорке. В принципе, по объемам оцифровки, именно по абсолютным показателям мы в какой-то момент даже очутились на восьмом месте. Потому что у нас есть миллион — мы и отсканировали миллион. Но теперь нам по этому рейтингу только вниз скатываться, потому что все те, кто там немножко медленнее это делают, будут нас опережать. То есть в этом плане нужно просто заниматься своим делом, ездить в экспедиции, как-то пристраивать никому не нужные коллекции, которые где-то могут и пропасть, в каких-то учреждениях…

[NS]: Наверняка помимо прочего некоторые листы вашего гербария имеют какую-то музейную ценность, историческую, в том числе.

[АС]: Конечно! Вообще гербарный образец состоит из двух частей: это сухое растение и этикетка. Сухое растение содержит информацию морфологическую, анатомическую, там примеси могут быть — химические, генетические. А этикетка содержит информацию географическую, экологическую, историческую. Например, кто, где и когда был в каком месте? В прямом смысле: кто — написано в этикетке, где — написано в этикетке, когда — написано в этикетке. По сути, корпус этикеток — это дневники исследователей, которые публикуются с помощью цифрового гербария МГУ. И кроме того, этикетка несет еще источниковедческую информацию. Это сама бумага: тип бумаги (особенно у старых коллекций это важно), водяные знаки какие-нибудь, характер чернил, характер типографских оттисков. Все это тоже учитывается.

[NS]: И наверное, у вас есть образцы знаменитых коллекторов (исследователей) XVIII-XIX века?

[АС]: Конечно! У нас есть несколько образцов… где-то 67 образцов, которые имеют отношение к шведскому естествоиспытателю Карлу Линнею. Это очень размытая формулировка, но, по-видимому, каждый из этих образцов побывал в руках Линнея. Они попали в Россию благодаря Анатолию Демидову, который был фактически одним из «‎аспирантов‎» Линнея. И на некоторых образцах сохранились даже автографы Линнея, то есть его почерком подписанные названия растений. Конечно, это бесценные реликвии, но научную ценность имеют и многие другие коллекции. Вообще говоря, научная ценность образца не всегда определяется тем, кто его собрал. Часто она определяется тем, что именно собрано. Поэтому, конечно, исторические реликвии — это хорошо, ценно и важно, но именно потому, что у нас оцифрован большой корпус образцов, все это вместе приобретает настоящую научную ценность.

[NS]: Наверное, есть уже и множество публикаций, которые упоминают ваш депозитарий?

[АС]: Да-да. Я так наизусть не знаю, но поскольку наши данные еще поставляются в GBIF — это международный агрегатор данных о биоразнообразии, GBIF отслеживает, в том числе, цитирование просто отдельных записей в виде выгрузок, которые получают индекс DOI (digital object identifier. — NS). По данным GBIF, массив цифрового гербария МГУ был процитирован 860 раз. В принципе, это неплохо.

[NS]: За последние несколько лет?

[АС]: Вот с момента, когда мы выложили данные в GBIF, это в 2017 году произошло (в ноябре 2017-го).

[NS]: Впечатляет. Я также знаю, что иногда к вам заглядывают генетики и берут образцы растений, чтобы провести генетический анализ.

[АС]: Конечно.

[NS]: Они смотрят определенные маркеры, или, может быть, реконструируют эволюцию отдельных групп растений? И выходит, что вы храните еще и генетический материал?

[АС]: Да.

[NS]: А насколько долго может сохраняться образец ДНК в растении?

[АС]: Зависит от групп. И зависит от того, как сушили. Потому что, например, растения Средней Азии сохнут хорошо и быстро, но в них плохо сохраняется ДНК. Потому что в процессе сушки на солнце они регулярно раскаляются до температуры свыше 60 градусов, и это приводит к разрушению длинных цепочек; остаются только маленькие. Но современные методы — они чем дальше, тем лучше работают с короткими кусочками ДНК, поэтому, в принципе, если есть необходимость, то даже из очень старых образцов, даже из очень-очень сильно фрагментированной последовательности ДНК что-то да можно выделить.

[NS]: Насколько старыми могут быть образцы?

[АС]: Например, если образец был хорошо высушен, то столетние образцы считаются вполне рабочими. В моей практике образцы 1930-х годов считались вполне себе рабочим материалом. Конечно, там не сто процентов. Причем это самые ходовые баркодинговые последовательности (баркодинг позволяет по генетическим маркерам ДНК определять принадлежность организма к систематической группе. — NS.). Скажем, ITS ядерной ДНК, три-четыре маркера хлоропластной ДНК. Понятно, что полный геном, даже хлоропластный, трудно выделить из старых образцов. Но, опять же, была бы цель! Когда был первый международный проект по реконструкции генома неандертальца, в условиях неограниченного финансирования даже очень с сильно фрагментированной ДНК можно что-то сделать. А если цели такой нет, иногда проще поехать и собрать свежие образцы. Например, у мхов все-таки коллеги предпочитают брать совсем свежий материал, 10-15 лет.

[NS]: Летом мы писали о работе Владимира Федосова — о том, как резко изменилась систематика околоводных мхов, суть работы вот в чем: два вида превратились в шесть. Насколько я понимаю, эти методы на основе молекулярной филогении стали революцией в биологии, и многие систематические группы «посыпались». И вроде как мхам «‎досталось больше всех‎»…

[АС]: Ну у сосудистых растений — не так, все-таки здесь была макроморфология (речь об изучении заметных внешних признаков. — NS). Вообще сосудистые растения — это самый простой объект для изучения среди всех биологических объектов. Они не бегают, не прыгают, не летают, не кусаются, не скрываются под землей, как грибы, например. Их всегда видно. И если ты читаешь гербарную этикетку образца столетней давности, например, с очень большой долей вероятности, если ты придешь в указанное там место, найдешь то же самое растение. В общем, с популяцией ничего не случится по большому счету. В этом плане мох — действительно удобный объект. И он довольно крупное растение. Поэтому, по моим оценкам, 90 процентов на уровне семейств у сосудистых растений были подтверждены данными молекулярной филогении, а 10 процентов претерпели какие-то перестановки. Причем когда эти перестановки происходят, им всегда можно найти (и тут же находится) морфологическое объяснение. То есть те признаки, которые считались возникшими независимо, в разных «‎веточках», вдруг оказываются не гомологами (гомология в биологии — сопоставимость частей сравниваемых биологических объектов, обусловленная общностью происхождения. — NS). Так что в этом плане все зависит от группы. Да, во мхах систематика здорово перекраивается. С другой стороны, чем быстрее этот этап пройдет, тем быстрее мы достигнем некоего не то чтобы консенсуса, но хотя бы какой-то стабильности.

[NS]: Понятно! В общем, цель одна и та же самая: классические способы построения эволюционного древа и молекулярно-генетические реконструкции. Так или иначе вы воссоздаете эволюцию: как шло развитие органического мира, кто от кого произошел. Как вы думаете, возможно ли сочетать классические методы и вот такие, новые? Ведь ботаника — одна из самых древних наук, которая традиционно занималась изучением морфологических, в том числе микроскопических признаков, экологии и географии распространения растений, а сейчас появились совсем другие — молекулярные методы.

[АС]: Нет, конечно, естественно, происходит синтез. На то она и наука — что вбирает в себя все, что можно только вобрать.

[NS]: Нет ли в таком случае опасности, что молекулярно-генетические методы вытеснят из ботаники все остальные, и мы станем «‎смотреть на растение как на ДНК‎»?

[АС]: Нет. Потому что только ботаник-систематик может дать нуль-гипотезу, поставить задачу, что исследовать, обозначить название… Ведь проблема такого массового «слепого» применения методов молекулярной филогении встала в полный рост в так называемых исследованиях по метагеномике. Когда извлекается тотальная ДНК из кубического сантиметра почвы или океанической воды, и пытаются посмотреть, чья эта ДНК. Да, и оказывается, что в океане содержатся ДНК неизвестных семейств, порядков (систематическая группа. — NS), которые никто никогда не видел. Но у нас есть фрагмент ДНК! Окей, он есть. У него есть номер. Мы ему можем присвоить какое-нибудь обозначение. Но никакому организму это не соответствует! Естественно, пока зоологи, микологи, ботаники не найдут этот организм, это знание не будет иметь релевантности к биологии даже. Это просто какая-то последовательность макромолекул. Поэтому, в принципе, происходит большой синтез. Это здорово.

Процесс монтировки образцов / ©Гербарий МГУ, портал «Научная Россия»

[NS]: Да, это настраивает на оптимизм. С одной стороны, есть новые молекулярно-генетические методы, и это прорыв в биологии. А есть еще на другом конце «‎научного спектра» — Big Data (большие данные), ДДЗ — данные дистанционного зондирования, может быть, базы данных и так далее. Как это сказалось на современной ботанике?

[АС]: Это фактически меняет парадигмы в нашей области знания. Ботаника… скажем так: не то чтобы ботаники нет как науки. Но, как и все старые большие науки, она на современном этапе распадается на множество отраслей знаний, которые слабо между собой связаны. То есть такое простое знание, как повысить, скажем, питательную ценность зерен пшеницы — это один полюс, и как сопоставить спутниковые снимки якутских лесов с эмиссией углекислого газа — это другой край. А есть и еще один край — скажем, последовательности ДНК, причем даже не ДНК, а какой-нибудь РНК где-нибудь в корневых чехликах сирени. Мы тоже об этом много чего знаем. Или о строении растительной клетки. Но как бы это уже, как и любая крупная наука, распадается на много всяких «‎запчастей‎». Поэтому использование наук о данных, или методов, которыми мы что-то большое обсчитываем, — для этого нам нужны большие вычислительные мощности. Они много где есть. Работа с геномами — это как бы самый простой пример. Без вычислительных мощностей у нас бы не было современной генетики — вообще, в принципе. Мы бы не смогли понять, что нам делать с этими миллионами последовательностей, и сравнивать их между собой. В этом плане науки развиваются бок о бок. Появились вычислительные мощности — мы можем теперь это посчитать.

Или другой пример: это большие данные о биоразнообразии, когда у нас есть уже не аккуратно поставленные на карте сто точечек какого-нибудь вида, и мы «‎знаем», как этот ареал выглядит, а у нас есть 300 миллионов точек всех видов растений с точностью координат до пункта, и для этих точек мы с использованием других геоинформационных систем можем узнать десятки климатических, биоклиматических показателей… не знаю, подстилающих пород, допустим — чего угодно! Влияние человека обсчитать. Это уже мультифакторный анализ получается. Для этого тоже нужны вычислительные мощности.

[NS]: Насколько мне известно, используют машинное обучение, чтобы предсказать ареал распространения — то, что называется SDM, species distribution modelling…

[АС]: Это не совсем то, конечно, искусственный интеллект. ИИ — это, что называется, «компьютерное зрение» (как часть искусственного интеллекта). Распознавание растений по фотографиям. Вот это правда прорыв. Двадцать три года назад на конференции в Санкт-Петербурге — я был на первом курсе тогда — очень вдохновленные люди рассказывали нам о том, что развитие молекулярных методов рано или поздно приведет к тому, что у вас в руках будет устройство размером с пульт от телевизора… Тогда еще сотовых телефонов не было, сравнивали с пультом дистанционного управления от телека — и вот в этот компактный прибор мы будем класть кусочек листика, а он будет нам говорить, что это за вид. Вот уже 23 года прошло, а все равно нужна лаборатория, где есть амплификатор (прибор для увеличения числа копий фрагментов ДНК. — NS)! И потом результат амплификации все равно нужно отправлять на прочтение какой-нибудь сторонней организации или куда-нибудь на Illumina (платформа для секвенирования. — NS), чтобы тебе уже в виде файлика сбросили последовательность, которую ты потом сравнишь. Короче, это в любом случае пока не «‎потолок» такой миниатюризации.

Но идея-то была правильная! Только теперь нам нужно взять смартфон, навести камеру на травку, сфотографировать ее, и мы-таки получим, причем с очень большой долей надежности, ответ на вопрос, что это такое. Так что, во-первых, прогресс неизбежен. А во-вторых, он непредсказуем. Это прямо лучшие слова!

Алексей Петрович в условиях естественного обитания / ©А. Серёгин, Plantarium.ru

[NS]: В свете всего этого стоит поговорить о iNaturalist: в какой-то момент возник ресурс, который предоставил любому желающему возможность собирать данные о биоразнообразии…

[АС]: В 2008 году Кен-ичи Уэда защитил диплом в Беркли (Калифорнийский университет в Беркли. — NS), придумал iNaturalist и не бросил эту идею. Примерно до 2016 года это была региональная забава. Трудно себе представить, но в течение первых восьми лет существования проекта он был популярен только в штате Калифорния. Несмотря на то, что функционал был уже на весь мир. Лучшее тому свидетельство — в 2016 году майские соревнования City Nature Challenge были просто «‎баттлом» Сан-Франциско против Лос-Анджелеса.

[NS]: Это были ученые или просто жители этих городов?

[АС]: Идея была такая: создать универсальную платформу для сбора данных о биоразнообразии. Без цели «помоги ученому», а с той целью, чтобы эти данные лежали в одном месте. А те, кому надо, придут и посмотрят эти данные, проверят и возьмут. Считается, что сам по себе iNaturalist не является проектом в области гражданской науки, а это платформа или среда… да, чаще всего говорят среда, в которой можно создавать такие проекты.

[NS]: Кстати, не все, наверное, знают, что есть такая вещь, как citizen science, то есть гражданская наука. Вы можете кратко рассказать, что это такое?

[АС]: Гражданская наука — это концепция. Это не какая-то наука конкретная, и тем более это не противопоставление науки военной и науки мирной (ну как если бы «есть наука военная и есть наука гражданская»). Ха-ха! Нет. Это концепция, которая говорит о том, что некоторые вещи, на которые ученые могут потратить кучу времени — но для которых при этом не нужны специальные знания и умения, — можно переложить на желающих. То есть по сути гражданская наука — это добровольная помощь ученым от непрофессионалов. Фактически речь идет о перераспределении усилий и вовлечении широких масс в сбор данных. Чаще всего речь идет именно о сборе данных для научных исследований, либо о некоей систематизации знаний.

[NS]: Насколько я понимаю, простые люди в том числе занимаются чем-то вроде молекулярной биологии: их домашний компьютер вместе с тысячами других обсчитывает структуру молекул. Или они играют в какую-то простую игру типа платформера и ищут оптимальую структуру молекулы, анализируют излучения из космоса. Очень широкий спектр получается, от отдельных белков до данных астрономов…

[АС]: Там возникают моменты следующего рода: считается ли гражданской наукой, если ты просто даешь 20 процентов мощности своих серверов для распределенных вычислений?

[NS]: То есть распределенные вычисления могут не относиться к гражданской науке?

[АС]: Считать ли это гражданской наукой, если ты участвуешь в качестве «‎подопытного кролика» в медицинских экспериментах? Нет, серьезно! Потому что испытания на людях, на человеческой популяции, очень многих препаратов и медицинских технологий — оно нужно. Вот это является гражданской наукой или нет?

[NS]: В этом случае будет очень много гражданских ученых, потому что есть огромные базы данных: сейчас Финляндия, Великобритания и так далее создали огромные биобанки, в которых миллионы записей. Там значительная часть населения в таком случае окажется гражданскими учеными. А вот как на фоне этого выделяется iNaturalist?

[АС]: Что, наверное, неправильно? Мы считаем, что мерилом участия должно быть трудовое участие. Ты тратишь свое время… кстати, именно эта концепция используется на сайте Dobro.ru. То есть там не только научные волонтерские проекты, но и в целом все волонтерские проекты… их мерилом являются часы трудового участия. На мой взгляд, это более правильно.

[NS]: И iNaturalist — это про настоящую гражданскую науку, с активным участием всех желающих, верно?

[АС]: Это прямо «активнее не бывает», потому что тебе нужно взять либо цифровой фотоаппарат, либо смартфон, оторвать пятую точку от мягкого кресла и пойти в лес.

[NS]: При условии, что ничего не пролетает по комнате — такое тоже случается.

[АС]: Это скорее вторично уже. Когда ты по лесу привык находиться, у тебя уже глаз будет цепляться за все, что на краю поля зрения, что что-то перемещается в углу комнаты, и ты будешь радоваться: «О, таракан! У меня же еще таракана нету! Я еще его не сфоткал!»

[NS]: Да. Профессиональная деформация гражданского ученого.

[АС]: Точно!

[NS]: Я знаю, помимо того что вы руководите гербарием, вы также самый активный пользователь-энтузиаст iNaturalist в России и проекта «Флора России». Расскажите нам про него, пожалуйста.

[АС]: Вообще история проекта «Флора России» и наших взаимоотношений с iNaturalist — это логическое продолжение истории с Цифровым гербарием МГУ. Мы думали над тем, чтобы создавать модуль внутри нашей платформы, внутри депозитария, для того чтобы люди могли туда закидывать фотографии живых организмов. Но фактически мы поняли: то, что мы хотим придумать и написать код, оно уже сделано и находится в открытом доступе. И развивается как очень большое международное сообщество, где помимо оболочки есть еще много всяких плюсов. Например, уже существующее сообщество, в том числе и знатоков отдельных групп.

[NS]: К тому времени iNaturalist уже вышел на международный уровень?

[АС]: Да, он вышел на международный уровень: 2016 год — это еще Калифорния, 2017 год — это уже США. В 2017 году о том, что эта штука очень популярна в Штатах, я услышал на Международном ботаническом конгрессе. В 2018 году более или менее кто-то начал что-то узнавать про iNaturalist в России. По-моему, первыми все-таки были орнитологи, чтобы не то чтобы массово, но начать эту работу.

[NS]: И это уже было приложение на Google Play?

[АС]: Приложения были практически сразу сделаны. А что такое приложение? Это просто еще одна точка доступа к базе. То есть фактически главное — это база. Не важно, какая есть точка интерактива: сайт, приложение. В Америке вообще больше, конечно, «Айфоны» популярны, поэтому в iStore это все изначально было сделано и долгое время приложение для iOS было менее глючным, чем приложение для Android.

[NS]: Я видел, что у них довольно сильно отличается интерфейс.

[АС]: Да-да. Ну это все исторически обусловлено. Поскольку все в Америке развивалось изначально, первичным был «Айфон». iNaturalist — это же прямая аллюзия на iPhone и iPad.

[NS]: Интересно, а когда вы сами поставили и впервые использовали iNaturalist?

[АС]: В конце 2018 года. Мы создали региональный проект по флоре Москвы. Это было 30 декабря 2018 года, в связи с тем, что мы тогда получили региональный грант от московского правительства. Ну грант РФФИ (Российский фонд фундаментальных исследований. — NS), опять же (один из линейки региональных грантов), что позволило нам, кстати говоря, по этому гранту как раз начать оцифровку гербария ГБС. Первые 50 тысяч образцов были по этому гранту сделаны. И так же бодренько, как американцы делали, мы ‎зарядили проект по флоре Москвы.

В течение первых суток (суток!) был такой отзыв… я опрос в соцсетях создал, дал рекламу… в течение этого первого дня или второго, в любом случае это до Нового года произошло, три человека, которые между собой не общались и не имели общего бэкграунда, написали мне примерно об одном и том же. Я попытаюсь пересказать, дословно не помню уже, но идея была такой: «Ребята! Вы в Москве живете и в Москве зажрались. Вы скоро там будете просто знать, где у вас каждое дерево растет. У вас куча бабла, вам на это денег дают. Вы вообще в МГУ работаете! А у нас, в условной N-ской области, никому до этого дела нет, и никто никогда не сделает такую замечательную штуку, как проект „Флора Москвы” на платформе iNaturalist!» Ну один человек так написал, допустим. Второй человек написал. Но когда за сутки примерно одну и ту же мысль (буквально ту же!) изложил третий человек, я понял, что это карма. Зимние каникулы 2019 года с 1 по 9 января я просто потратил на то, чтобы сделать эти симметричные по настройкам 85 региональных проектов.

[NS]: По числу регионов?

[АС]: Да. Подобрать для них фотографии — то, что у меня было, где я был. А где никогда не был, я попросил у друзей. Что-то мне в Facebook прислали. Нашел я эти 85 фотографий-«шапочек» в заголовке каждого проекта. И тогда было восемь тысяч наблюдений по «Флоре России», и я их проверил все за эти праздники…

iNaturalist в действии / ©Thestar.com

[NS]: Это рождение проекта «Флора России», так сказать?

[АС]: Да. Чем 2017 год отличался от 2018-го? Тем, что в 2018 году изменилось курирование проектов. Сама концепция проектов на iNaturalist. Их стало возможно настраивать по автоматическим фильтрам, без прикрепления каждого отдельного наблюдения к проекту руками.

[NS]: При этом, насколько мне известно, большинство фотографий в iNaturalist находятся в свободном доступе…

[АС]: Открытые лицензии имеют.

[NS]: А открытая лицензия значит, что абсолютно любой может ее использовать, тиражировать…

[АС]: Она мигрирует в GBIF, где у нее больше возможностей для научного использования. Не только у фотографий, но и у данных. Ученые не берут данные из iNaturalist. Ученые берут данные iNaturalist и данные других баз данных через GBIF.

[NS]: Но для этого нужна какая-то проверка, валидация этих данных?

[АС]: Да, валидация. Она осуществляется экспертами. И это показатель, по которому мы очень здорово отличаемся от мира. По «Флоре России» у нас на текущий момент 14,5 процента наблюдений не верифицированы. Соответственно, в обратную сторону 85,5 процента проверено. Это очень высокий показатель. То есть существуют проекты по неопределенным наблюдениям. Там очень часто Россия — просто белое пятно, потому что на мировом срезе наши данные выглядят проверенными. Там есть, в том числе, неподтвержденные простые наблюдения, но работа ведется постоянно. Объем просто огромный. Фактически ведь что такое один процент? Когда у вас 2,5 миллиона наблюдений, один процент — это 25 тысяч отдельных наблюдений! Чтобы что-то куда-то сдвинуть, нужно вручную провести процессинг этих данных. Это много. И следующий показатель, по которому мы здорово отличаемся от остального мира, — это число наблюдений на одного человека. В мире гораздо больше людей, которые поставили себе iNaturalist в качестве приложения, что-то сфотографировали и забыли про это. В мире в среднем один наблюдатель сделал 40 наблюдений. А в России — 145.

[NS]: Как вы думаете, почему так? В чем причина этой разницы?

[АС]: Потому что те люди, которые узнают про iNaturalist — они уже больше знают про это, знают, зачем это нужно, и остаются. Ведь есть два вида маркетинга: маркетинг на привлечение и маркетинг на удержание. Вот наше сравнение с мировым опытом показывает, что у нас нет проблем ни с тем, ни с другим. Пока людей, конечно, не очень много — по сравнению с другими странами, в процентном соотношении. Но те, кто есть, делают очень большой объем работы. У нас один процент наблюдателей по «Флоре России» делает 62 процента наблюдений! Это сильная диспропорция.

[NS]: Есть какие-то «‎флагманы» — люди, которые сами делают большую часть работы? Я вот не буду скрывать, что тоже являюсь пользователем iNaturalist с августа 2019 года. И знаю, что могу легко обратиться к профессионалам. Несколько докторов наук доступны по никнейму — в iNaturalist они могут мне помочь. Это, конечно, уникальная возможность.

[АС]: Да. Бесплатный сервис для определения растений. Меняем название на ваши данные.

[NS]: Если наши читатели, которые прочтут это интервью, решат поставить себе приложение iNaturalist и присоединиться к проекту «Флора России», что бы вы им рекомендовали, чтобы быть эффективными помощниками вашего проекта и с удовольствием провести время?

[АС]: Для начала — прочитать внимательно описание проекта. Там есть ссылочка на очень важный пост — «Как снимать и что снимать. Учимся у классиков». Где на примере снимков (20-30 фотографий) показано, как, даже не зная растений, фотографировать их так, чтобы эксперты и искусственный интеллект могли их определить. Это очень важно! Задача любого участника не в том, чтобы попытаться обмануть машину или заставить ее дать правильный ответ (в том случае, когда фиг знает что сфоткано), а сфотографировать как раз именно так, чтобы все удавалось. Потому что если мы возьмем список видов, то 99 процентов наблюдений, которые загружают пользователи (например, из Подмосковья), относятся к тем видам, которые система компьютерного зрения знает. Если их правильно сфотографировать, вы получите однозначный правильный ответ, даже не дожидаясь подтверждения экспертов. А если машина ошибется, что с каждым годом бывает все реже и реже, то мы поправим. В этом плане прогресс неизбежен.

[NS]: То есть пользователям стоит верить тому определению, что им предлагают алгоритмы?

[АС]: Да. Если вы не знаете растений, поверьте мне, что в целом во флоре мира машина осведомлена лучше человека. Она может ошибиться, но ни у одного человека нет такого корпуса знаний, который есть у системы компьютерного зрения iNaturalist. Это однозначно.

[NS]: Спасибо большое за беседу, Алексей Петрович! Всего доброго!

[АС]: Вам спасибо, до свидания!

Михаил Орлов

Источник: naked-science.ru