,

$ 65.81 75.32

Сельское хозяйство

Подготовка патентной химической структурной информации к вводу в базу данных пестицидно-активных соединений

Введение

В работе [1] нами были изложены основные принципы построения базы данных биологически активных химических соединений на основе обработки патентной информации с помощью создаваемых отдельных текстов-файлов «Patent», «Format», «Value», «Atom», «Radical», «Formula», «Replace». В файле «Patent» записываются основные сведения о литературном источнике; «Format» и «Value» – физические характеристики свойств; «Atom» и «Radical» – стандартный набор используемых при построении химических структур узлов в виде представлений единичных атомов, их определенных сочетаний или условных обозначений наиболее типичных структурных фрагментов; «Formula» – формулы Маркуша в обобщенном виде с сохранением в отдельных узлах конкретных атомов, в других – индексируемых радикалов, для групп родственных химических структур; «Replace» – информация о процедуре получения всех конкретных единичных структур по определенной формуле Маркуша путем замен конкретных радикалов на химические атомы или цифровые обозначения химических связей. Наполнение базы данных химической структурной информацией осуществляется путем формирования двух файлов – «Formula» и «Replace»,  для чего необходима предварительная обработка исходных патентных данных.

 

Материалы и методы

В данной работе рассматривается комплекс вопросов, связанных с процедурой предварительной обработки и подготовки патентной химической структурной информации к вводу в базу данных пестицидно-активных соединений. Поскольку разные авторы не придерживаются единообразия в представлении структурных данных, это сильно затрудняет процедуру их обработки. Поэтому имеет смысл рассмотреть некоторые наиболее типичные случаи и продемонстрировать пути подхода к решению задачи.

 

Результаты и обсуждение

1. Патенты с большим объемом структурных данных

К такому типу обычно относятся патенты с гербицидным [2 – 5] видом активности пестицидов. В них содержится структурная информация от нескольких сот до нескольких тысяч химических соединений. Обработка этих данных и запись информации осуществляется на отдельную часть магнитного носителя. После нумерации химических структур изготавливается формула Маркуша. Для всего структурного интервала патента можно попытаться сделать одну формулу Маркуша. Нередко в этом случае построение формулы становится трудоемким, она принимает громоздкий вид и процедура замен усложняется. Если весь структурный интервал патента разбить на отдельные интервалы, то для их небольших значений формулы Маркуша будут иметь сравнительно простой вид, но при этом резко возрастет объем текста «Replace» и запись информации на магнитные носители потеряет свою компактность.

Поэтому в каждом конкретном случае необходимо выбирать оптимальное решение: стремиться, чтобы структурный интервал, по возможности, охватывал как можно больше химических соединений и в тоже время не сильно усложнялся вид формул Маркуша.

Продемонстрируем процедуру обработкой данных работы [2]. Для наглядности примера был взят патент с относительно небольшим числом структурных данных. В этой работе для тринадцати химических структур приводится формула Маркуша:

 

                                                         (1)

 

 ,

где R1 – (C1–С4)–алкил, (ОС1–ОС4)–алкокси; R2 – (С1–С4)–алкил; R3 – водород, (C1–С4)–алкил или галоген; X – кислород или сера.

Все химические структуры, содержащиеся в таблице 1 [2], были пронумерованы нами в интервале: 628–640 на ML=25 (часть магнитного носителя). Переменные места замещения радикала R3 в формуле (1) были закреплены в позициях углеродных атомов бензольного кольца. Для каждого из радикалов формулы Маркуша (1) на основе набора атомов в соответствующих столбцах таблицы 1 [2] были составлены обобщенные радикалы. С учетом проделанных операций составлена следующая структурная формула Маркуша:

где С, H, S, О – атомы углерода, водорода, серы, кислорода; СЗН – условное обозначение структурного фрагмента; R1, … R4, X – радикалы; * – ароматические (полуторные) связи.

В таком виде формула была построчно записана в файл «Formula».

Затем был сформирован текст замен:

Радикалы R1, … R3 и Х подвержены замене во всем структурном интервале. Поэтому для них были осуществлены все замены, кроме одной, которая была интервально введена в последней операции замен. Для радикала R4 возможны замены только в ограниченном интервале, поэтому после осуществления всех возможных замен для него было введено нулевое значение во всем структурном интервале. Составленный текст был записан в файл «Replace». В таком виде структурная информация хранится на магнитных носителях. Она достаточно компактна – в среднем на 1 структуру затрачивается всего порядка 10 байт внешней памяти. В режиме генерации можно сформировать любую единичную структуру из всего интервала, например, структурному номеру 628 соответствует следующая информация:

 

Специальной программой предусмотрено, если какой-либо атом связан с атомом водорода, то происходит объединение этих атомов в один узел с исчезновением связи, т.е. в нашем случае осуществляется переход от структурного фрагмента С – Н к СН. Время, затрачиваемое на генерацию единичной структуры составляет от 5 до 10 сек.

2. Патенты с малым объемом структурных данных

Для большинства патентов с фунгицидной [6 – 12], росторегулируемой [13 – 16], инсектицидной [17 – 19] и др. видами активности характерно наличие небольшого количества химических структур (от нескольких единиц до нескольких десятков). Независимая обработка каждого патента приведет к созданию большого числа формул Маркуша, описывающих очень узкие структурные интервалы, и большого числа небольших текстов замен. В результате увеличивается машинное время, затрачиваемое на запись информации, и уменьшается компактность базы данных. В этом случае рекомендуется первоначально все патенты, предназначенные для обработки, допустим ≈ 200 штук, распределить по признаку биологической активности и разбить их на отдельные группы. Каждая из групп формируется по определенному признаку близости структур друг к другу – линейные, разветвленные, циклические, содержащие одно, два и более бензольных колец, по разному скоординированных друг к другу и т.д. Таким образом производится упорядочение химических структур. Затем для каждой группы, в которой напомним содержатся данные нескольких патентов, осуществляется сквозная нумерация химических структур до значения ≈ 1000, составляется формула Маркуша и соответствующий ей текст замен. Для примера покажем процедуру обработки на основе данных работ [6 – 8]. Были выбраны соединения с фунгицидной активностью, запись осуществлялась на часть магнитного носителя ML = 21.

В работе [6] приведена одна структура

                                                                                    

Ей был присвоен номер: 450.

В работе [7] для восьми структур приведена формула Маркуша:

где R – водород, гидроксил, (С2–С3)–алкил, бензил, незамещенный или замещенный хлором (бромом) фенил.

Этим структурам были присвоены следующие номера: 451–458.

В работе [8] для шести структур приведена формула Маркуша:

Этим структурам были присвоены следующие номера: 459–464.

Для всех химических структур этих трех работ характерно наличие общего звена:

 

Это позволяет их объединить в одну группу и для нее создать единую формулу Маркуша:

Затем был сформирован текст замен:

Ниже приведено по одному примеру единичных структур из структурных интервалов этих трех работ, полученные в режиме генерации.

 

Таким образом, объединение нескольких патентов по признаку близости химических структур с последующей обработкой данных уменьшает общее число формул Маркуша и объем текстов замен.

3. Патенты с нестандартным видом представления структурных данных

В некоторых патентах химическая структурная информация представлена с помощью других способов, отличающихся от вышеизложенного. Возникает необходимость предварительной обработки таких данных. Рассмотрим на конкретных примерах наиболее типичные случаи.

a) Структурная информация определенного класса соединений с единичным представлением

В патентах такого типа не всегда присутствуют формулы Маркуша и отсутствуют тексты-таблицы замен. Например, в работе [20] для девяти соединений с акарицидной активностью приведена общая формула:

(RO) (R’) PS – NHNHCOCH2S – PX(R’) (OR),                                                                     (11)

где R – алкил; R’ – алкокси, арилокси, NHAlk, N(Alk)2; X – O или S.

Далее в таблице содержатся конкретные структурные формулы этих соединений.

 

 

Таблица 1 – Акарицидные средства

№ *

Структурная формула

581

(C2H5O)2 PS — NHNHCOCH2S — PS(OC2H5)2

582

(C2H5O)2
PS — NHNHCOCH2S — PO(OC2H5)(NHC4H9)

583

(C2H5O)2
PS — NHNHCOCH2S — PO(OC2H5)(NHC4H9
— изо)

584

(C2H5O)2
PS — NHNHCOCH2S — PO(OC2H5)(NHC3H7)

585

(C6H5O)(C4H9O)PS — NHNHCOCH2S — PO(OC2H5)(NHC4H9)

586

(C6H5O)(C4H9O)PS — NHNHCOCH2S — PO(OC2H5)(NHC3H7)

587

(C6H5O)(C4H9O)PS — NHNHCOCH2S — PO(OC2H5)2

588

(C6H5O)(C4H9O)PS — NHNHCOCH2S — PS(OC2H5)2

589

(C6H5O)(C4H9O)PS — NHNHCOCH2S — PO(OC4H9)2

        *  нумерация  структур  осуществлена  нами  для    ML=25

 

На основе данных табл. 1 были сформированы формула Маркуша и таблица замен:

Таблица 2 – Структурные данные

R1

R2

A

A1

A2

581

ОС2H5

ОС2H5

PS

ОС2H5

ОС2H5

582

ОС2H5

ОС2H5

PO

ОС2H5

NHC4H9

583

ОС2H5

ОС2H5

PO

ОС2H5

NHC4H9— изо

584

ОС2H5

ОС2H5

PO

ОС2H5

NHC3H7

585

ОС6H5

ОС4H9

PO

ОС2H5

NHC4H9

586

ОС6H5

ОС4H9

PO

ОС2H5

NHC3H7

587

ОС6H5

ОС4H9

PO

ОС2H5

ОС2H5

588

ОС6H5

ОС4H9

PS

ОС2H5

ОС2H5

589

ОС6H5

ОС4H9

PS

ОС4H9

ОС4H9

 

В этой операции мы фактически данным работы [20] придали стандартный вид. Затем согласно процедуре, описанной в разделах 1 и 2, были изготовлены обобщенная формула Маркуша и текст замен:

6) Номенклатурное представление соединений определенного класса

В патентах приводятся только названия химических соединений и, как и в предыдущем случае, нет текстов-замен, формулы Маркуша не всегда присутствуют.

В работе [21] для семи соединений с репеллентными свойствами приведена общая формула:

 

                                                                                   

где R – водород, изопропилфенил или алкил-, алкокси-, или тиоалкил- группа с числом углеродных атомов до 6.

В нижеследующей по тексту таблице содержится только номенклатурная информация.

Таблица 3 – Репеллентные средства   

№*

                     Соединение

875

2,6-ди-трет-бутил-4-тиобутилфенол

876

2,6-ди-трет-бутил-4-тиометилфенол

877

2,6-ди-трет-бутилфенол

878

2,6-ди-трет-бутил-4-метоксифенол

879

2,6-ди-трет-бутил-4-(α,α’-диметилбензил)-фенол

880

2,6-ди-трет-бутил-4-метилфенол

881

2,6-ди-трет-бутил-4-трет-бутилфенол

* нумерация соединений осуществлена нами для МL=25

 

После нумерации соединений мы осуществили переход от названий к структурным формулам для каждого соединения. При этом таблица приняла следующий вид.

Таблица 4 – Структурные данные

 

Далее процедура обработки осуществляется также, как в случае 3.а.

в) Бессистемная структурная информация соединений с единичным представлением

В ряде патентов, а также различных справочниках, сборниках содержится информация в виде последовательно чередующихся разнообразных структурных формул химических соединений без определенной систематики. Обработка таких данных по существу представляет собой сумму описанных в разделах 2 и 3.а процедур. Сначала осуществляется упорядочение химических структур путем разбивки всего массива данных на отдельные группы с последующей нумерацией и изготовлением для каждой группы формул Маркуша и текстов замен.

В работе [22] приведены данные о величинах ПДК в окружающей среде для 2030 разнообразных химических структур. Предварительной обработкой этих данных нами было сформировано всего 46 групп, для каждой из которых составлялась своя формула Маркуша и соответствующий ей текст замен. В окончательном виде для всего массива данных работы [22] файл замен «Replace» составил 30 страниц стандартного машинописного текста.

Выводы

Таким образом, в результате проведенного в данной работе анализа различных патентов на предмет формы представления химической структурной информации пестицидно-активных соединений, можно сделать следующие выводы. Для патентов с большим объемом однотипных структурных данных, не превышающих порядка одной тысячи соединений, рекомендуется проводить совместную обработку данных. Патенты с малым объемом структурных данных необходимо после предварительного распределения по признаку биологической активности сгруппировать по признаку близости структурных форм и проводить обработку независимо для каждой отдельной группы. Наконец, патентные данные с нестандартным видом представления химических структур следует вначале перевести в стандартный вид – неканоническая формула Маркуша и таблица замен, а затем произвести их обработку путем изготовления обобщенной формулы Маркуша и файла-текста замен.