Документ взят из кэша поисковой машины. Адрес оригинального документа : http://sed.sao.ru/~vo/disser/ch3.html
Дата изменения: Thu Sep 9 19:16:47 2010
Дата индексирования: Mon Oct 1 20:35:18 2012
Кодировка: koi8-r

Поисковые слова: п п п п п п п п п п п п
Methods and results of radio cosmology. Chapter 3. Выход на текущий сервер sed.sao.ru            

Методы и результаты наблюдательной радиокосмологии

Диссертация на соискание уч. степени доктора физ.-мат. наук

Глава 3. Разработка базы данных астрофизических каталогов CATS и ее применение для построения и анализа выборок радиогалактик

gzipped PostScript версия здесь, 2005 г.
Начало Введение Глава 2 Глава 3 Глава 4 Глава 5 Глава 6 Библиография Приложения

Верходанов О.В.

Специальная Астрофизическая обсерватория


Оглавление


Основные результаты этой главы изложены в статьях рецензируемых изданий Verkhodanov et al., 1997a,b,2000b,2000d; Verkhodanov & Trushkin, 2000; Верходанов и др. 2003b,c,2005c.

3.1. Введение

Как уже отмечалось во Введении данной работы, одним из этапов селекции радиогалактик является анализ континуальных радиоспектров и построение выборки объектов с крутыми спектрами (т.е. когда спектральный индекс α<-0.75, Sα). Для решения этой задачи необходимо сформировать списки объектов по данным из опубликованной литературы и создать процедуры анализа спектров в FADPS. Естественным шагом в процессе выборки данных из различных опубликованных каталогов было построение базы данных используемых списков, выработка принципов каталогизации и создание процедур поиска по различным каталогам.

Таким образом, создание базы данных радиоастрономических каталогов CATS (Astrophysical CATalogs Support System) явилось закономерным этапом развития систем обработки, большого числа архивированных списков обнаруженных источников и появления данных на новых вступивших в строй телескопах с приемниками на дополнительных длинах волн. Острой необходимостью стало построение и расширение континуальных спектров объектов в дополнение к точкам радиоспектра, измеряемым на РАТАН-600, не только при анализе механизмов энерговыделения, но и просто для более точных оценок измеряемых плотностей потоков калибровочных источников в процедуре привязки наблюдений к международной шкале потоков.

Можно выделить следующие предпосылки создания базы данных CATS на момент ее появления в САО в 1993г. (Верходанов, Трушкин, 1994, 1995a,b):

К моменту начала разработки базы данных CATS у авторов было около 30 радиоастрономических каталогов, компьютер IBM PC 386, работающий под OS XENIX (модификация Unix-а), и большое число разнообразных астрофизических проблем, связанных с исследованиями континуальных спектров и требующих решения. CATS организовывалась прежде всего как система поддержки наблюдений, проводимых на радиотелескопе РАТАН-600 (Verkhodanov, Trushkin, 1995; Верходанов, Трушкин, 1995a,b). Именно трудоемкая работа с ``бумажными'' каталогами при обработке и интерпретации наблюдений на радиотелескопе стала побудительной причиной создания радиоастрономической базы данных каталогов более широкого использования. После создания удобного интерфейса такая возможность была реализована в рамках локальной сети САО. С появлением доступа САО РАН в Internet модернизированная и ориентированная уже на Web-технологию база данных CATS стала широко использоваться астрономическим сообществом. А дополнение системы управления CATS интерпретационными CGI-программами и апплетами расширяет ее поисковые возможности. Статистика показывает, что сервер обрабатывает около 10000 обращений в месяц, а анализ используемых данных показывает, что CATS существенно помогает астрономам при обработке астрофизических наблюдений.

Табличные данные каталогов поступали на РАТАН-600 в разное время. MASTER LIST, объединенный каталог всех радиообзоров неба, выполненных до 1981 г., созданный Диксоном (США) (Dixon, 1970), стал первым из вошедших в CATS, так как широко использовался в радионаблюдениях на РАТАН-600 еще с 80-х гг. Коллекция данных содержит также информацию по тысячам слабых радиоисточников из обзора ``Холод'' и Зеленчукского обзора ГАИШ, проведенных с помощью радиотелескопа РАТАН-600. Очень большой вклад внес энтузиаст коллекционирования астрономических данных Хайнц Андернах, который передал многие оцифрованные им каталоги. Им собрано 600 каталогов, содержащих радиоданные, и около 500 - результаты наблюдений в других диапазонах (Andernach et al., 1994, 1995, 1997).

В данной главе будут рассмотрены принципы каталогизации радиоисточников, являющиеся оригинальной авторской разработкой, описаны идеология и правила построения баз данных астрофизических объектов и описаны принципиальные моменты селекции объектов. В рамках построенной системы проведены исследования нескольких списков объектов, отобраны радиоисточники с ультракрутыми спектрами, проведено их кросс-отождествление с объектами других диапазонов длин волн.

3.2. Идеология построения базы данных

База данных CATS представляет собой набор астрофизических каталогов, их описаний и программ работы с ними (Verkhodanov, Trushkin, 1995; Verkhodanov et al., 1997a,b,c; Трушкин и др., 1997, Trushkin et al., 2000; Verkhodanov et al., 2000b,c, 2005c). Чтобы не утонуть в потоке информации, мы ограничили отбор каталогов для CATS следующими принципами:
CATS scheme Рис.3.1. Схема построения базы данных CATS. Каждый астрофизический каталог помещается в соответствующую директорию операционной системы. В эту же директорию помещаются исполняемые программы и описания каталога. В файле описаний содержатся характеристики астрофизических каталогов и имена соответствующих программ для выполнения процедур выборки данных. Организованы различные варианты ввода и вывода информации из БД. Рисунок опубликован в работе (Verkhodanov et al., 1997a).

Основной упор в CATS сделан на работу с радиокаталогами и отдельными таблицами, использующими результаты наблюдений в сплошном спектре. Таких таблиц в БД около 400 (на начало 2005г.). Все самые объемные известные радиокаталоги с числом записей больше 800 уже включены в CATS. По нашим оценкам более 98% всех каталогизированных радиоданных являются частью CATS, что делает ее самой крупной радиоастрономической базой данных в мире.

Одной из основных задач, стоявших перед авторами, было сохранение исходного астрофизического каталога в формате автора, т.е. неизменность авторских данных. Необходимо было разработать такую структуру взаимодействия пользователя и поисковой программы, работающей с каталогом, чтобы и пользователю было удобно и программа разбиралась с первичным каталогом. Для выполнения этих целей была выбрана двухуровневая иерархическая структура описания и хранения данных, а также двухуровневая (а позднее - трехуровневая) структура поисковых и обслуживающих пользователя программ (Рис.3.1) (Verkhodanov et al., 1997c).

Добавление нового каталога в базу данных CATS происходит по следующим правилам:

  1. каждый новый каталог объектов должен быть помещен в Unix-директорию с тем же именем, что и сам каталог объектов;
  2. туда же помещаются все программы для локальных операций поиска/выборки;
  3. краткие характеристики, имена программ и файла с описанием каталога, библиографические ссылки помещаются в специальный файл описаний cats_descr.
Файл описаний (cats_descr) содержит имя и тип каталога (радио, оптический, смешанный и т.п.), диапазон частот, минимальные/максимальные значения плотностей потоков, границы используемых в данном каталоге координат источников (галактических и/или экваториальных), имена локальных программ выборки по параметрам (select) и кросс-идентификации (match), имя файла с документацией, параметр разрешения (размер диаграммы направленности или seeing), количество записей в каталоге, калибровочный множитель для привязки шкалы интенсивностей и библиографический код. Несмотря на небольшой объем вводимых характеристик, на настоящий момент их вполне хватает для организации управления БД.

Внешний пользователь взаимодействует с CATS через специально созданные командные файлы (второй уровень системы управления базой данных CATS) из любой директории системы (Рис. 3.1). Эти командные файлы считывают всю необходимую информацию из файла описаний (cats_descr) - центрального репозитория (хранилища ссылок) метаданных, описывающих физические свойства каталога. Именно благодаря взаимодействию с репозиторием, поисковые программы отождествляют местоположение искомого каталога в системе управления файлами OS Unix по запросам пользователя.

Описанный способ размещения и хранения каталогов позволяет быстро и легко развивать БД CATS, и настраивать поддерживающие программы. Таким образом, CATS представляет из себя базу данных объектов, где каждый объект - структурная единица, объединяющая сам астрофизический каталог, помещенный в соответствующую директорию системы, файл с его кратким описанием, а также программы для работы с этими данными (Рис.3.1).

Реально все каталоги имеют различный формат представления данных и получены в различных по методам наблюдениях. Таким образом, пользователю предоставляется однородный доступ к разнообразной коллекции данных, полученных на различной наблюдательной базе с различными физическими характеристиками и единицами измерения в противовес принятым на начало 90-х годов стандартам создания единого каталога с полным набором описываемых параметров. Система настройки организована таким образом, что описанные каталоги включаются в CATS без изменения расположения полей с параметрами, а прямо в том виде, как они были опубликованы.

Тонкая настройка.
Локальные программы вызова - нижний уровень взаимодействия с каталогами - сами являются двухуровневыми программами (командными файлами). Нижний уровень подготавливает верхний вызов в виде унифицированного поискового запроса, который уже используется для передачи общих параметров запроса к атомам системы. В качестве атомов системы используются две специально разработанные программы c_sel и c_match, которые настраиваются администратором на формат описания соответствующего каталога, а именно на позиционирование определенных полей с параметрами. Например, нижеприведенная строка демонстрирует, как определенные символы соответствуют определенным параметрам:

c_sel \
-pat "nnnnn hhmmssss ee tddmmss ee zzzzz fff eee\n i xx yy aa q\n".
Здесь в трех вводимых строках:
nnnn - имя; hh mm ssss - часы, минуты и секунды прямого восхождения (RA); eee (после RA) - ошибка RA в секундах времени; tdd mm sss - знак, градусы, минуты и секунды склонения (Dec); ee (после Dec) - ошибка Dec в секундах дуги; zzzzz - частота в МГц; ffff - плотность потока в мЯн; ee (после FD) - ошибка плотности потока в единицах плотности потока; `\n' - символ перевода строки; i - количество строк после текущей для считывания; x - большая полуось эллипса в секундах дуги; y - малая полуось эллипса в секундах дуги; a - позиционный угол в градусах; q - размер объекта в секундах дуги. Ключ '-pat' обозначает, что следующий параметр (заключенный в кавычки) - шаблон для отождествления положения полей в каталоге объектов. Позиции полей описаний соответствуют положениям описываемых параметров в реальном каталоге.

Используя такую методику задания форматов полей, мы смогли подключить разнообразные каталоги, чьи наблюдательные характеристики, например координаты, выражены в радианах, градусах или часах, т.е. в различных физических единицах. Это позволило включить в CATS на общих основаниях старые каталоги с худшими (имеющими точность до 30 мин дуги) координатами без изменения форматов записей.

Индексация.
При работе c каталогами огромных размеров (свыше 0.5млн. записей) становится заметной скорость взаимодействия программы с жестким диском компьютера, с одной стороны, а также время вычислений при обработке данных каждой записи, с другой стороны. Для решение этих проблем была введена система индексации записей (программа c_divide) с такой же тонкой подстройкой описания параметров, что и для атомов системы c_sel и c_match. Количество методов индексации устанавливает администратор при включении каталога в базу данных CATS. Подобный подход в индексации каталогов ускорил поиск и обработку информации в десятки тысяч раз (Verkhodanov et al., 1997c; Верходанов и др., 2005c).

Расщепление каталогов на объекты.
Одна из мировых тенденций при создании баз данных - архивирование астрофизической информации по конкретным объектам, т.е. в отличие от CATS, которая развивалась, сохраняя каталоги в их исходном виде, ряд баз данных (см. например, базы данных скоплений галактик (Gubanov, 1997) или физических свойств галактик HyperLeda (Prugniel et al., 2002)) собирает и структуирует информацию по отдельным объектам. Следуя этим тенденциям, мы добавили процедуры работы c S-файлами (в FITS-подобном формате для описания данных радиоспектров (Верходанов и др., 1997a)) в программы нижнего уровня - атомы CATS. Таким образом были представлены и сохранены в CATS результаты отождествлений декаметровых источников (Verkhodanov et al., 2000d; Верходанов и др., 2003b).

3.3. Функции CATS

CATS имеет несколько основных функций, обеспеченных разработанным программным обеспечением (Verkhodanov et al., 1997a,b,c, 1998a, 2000b, 2004b; Truskin et al., 2000, 2001). Выделим некоторые из них:
  1. Сохранение данных разнообразных астрофизических каталогов.
  2. Предоставление краткого описания и характеристик каждого каталога и распечатка полного списка каталогов, пересекающих заданную площадку неба.
  3. Выборка объектов из одного или нескольких каталогов в соответствии с заданными пользователем критериями, такими, например, как экваториальные и галактические координаты, плотности потоков и спектральные индексы, наблюдаемые частоты, имена каталогов (как в случае компилированных каталогов вроде MASTER.LIST Диксона (Dixon, 1970, 1981)) и тип объекта (если он приводится в каталоге).
  4. Кросс-идентификация различных каталогов; расчет спектральных индексов по выбранным частотам; оптическое, рентгеновское и инфракрасное отождествление радиоисточников.
  5. Построение континуальных радиоспектров, подготовка бумажных копий рисунков со спектрами.
  6. Перевод координат с эпохи на эпоху и вычисление видимых мест.
  7. Интероперабельность.
Интероперабельность (универсальность) - это свойство системы управления базы данных, заключающееся в возможности использования процедур этой СУБД в других программных средствах. Каждая создаваемая открытая система должна уметь взаимодействовать с внешним миром. Формально это свойство взаимодействия и есть интероперабельность. CATS, как база данных, реализована с внешним доступом на уровне нескольких протоколов взаимодействия, самый важный из которых в настоящее время - HTTP. Функции и программы, обеспечивающие взаимодействие пользователя с процедурами СУБД, обеспечивают это свойство CATS как на клиентском уровне, так и на уровне взаимодействия с серверами. Рабочие функции CATS второго уровня могут быть вызваны через специально организуемые запросы, и обеспечить обработку и передачу вводимых и выводимых таблиц.

Выдаваемые таблицы CATS (Верходанов и др., 1997a, 2004b) воспринимаются графическими процедурами FADPS (spg, см. Главу 2, (Верходанов, 1997)), таким образом формируя единую цепочку обработки информации.

Построение континуальных радиоспектров в базе данных обеспечивается несколькими процедурами на разных уровнях доступа. На нижнем уровне взаимодействуют процедуры FADPS spg и plgr с данными вывода процедур CATS c_sel и c_match. На верхнем уровне доступны разработанные А.С.Трушкиной и С.А.Трушкиным Java-процедуры и GIF-процедуры для оперативного построения спектров из многочастотных каталогов.

Предоставление краткого описания и характеристик каждого каталога оформлено на трех уровнях доступа: Web-страницы подготовлены С.А. Трушкиным, а описание для FTP- и SCP-доступа производится администратором в момент ввода нового каталога.

Перевод координат с эпохи на эпоху - одна из функций CATS. Координаты выбираемых объектов могут задаваться на произвольную эпоху, а согласование с эпохой каталога производится специальной утилитой epoch, в которой реализованы алгоритмы, разработанные В.П.Львовым (ГАО РАН).

Две функции, являющиеся принципиальными в селекции объектов: выборку по параметрам и кросс-идентификацию, связанные с процедурами вычислений, рассмотрим отдельно.

3.3.1. Выборка по параметрам

Как уже упоминалось, для выборки объектов из одного или нескольких каталогов по параметрам, разработана специальная процедура нижнего уровня - атом с_sel, позволяющая настраивать формат ввода для задач выборки из астрофизического каталога. Программа организована так, что, кроме селекции по имеющимся в каталоге параметрам, например, координатам и плотностям потоков (или звездным величинам), она позволяет сортировать поступающие объекты ``гнездовым'' способом: вокруг источников из выбранного каталога в эллиптической или прямоугольной зоне с заданными полуразмерами выбираются все объекты и объединяются в одно ``гнездо'', которое помечается при выводе объекта. В предположении единого общего источника излучения и правильного отождествления внутри ``гнезда'' можно производить выборку по спектральным индексам на заданной частоте. Тип континуального спектра, для которого вычисляется спектральный индекс как наклон касательной, выбирается автоматически. Подобная функция CATS является дополнительной процедурой и при кросс-идентификации списков объектов.

Взаимодействие программ выборки и каталогов и файла описаний cats_descr выполняет процедура cats_sel, распределяющая работу по заданным каталогам. Она обеспечивает взаимодействие между пользовательскими интерфейсными программами и нижним уровнем. Задача выборки по параметрам решается на всех уровнях управления CATS (например, HTTP - см. Рис.3.2). 3.3.2. Кросс-идентификация источников Кросс-идентификация различных каталогов - один из наиболее важных инструментов CATS, призванных решить проблему поиска первичных кандидатов на отождествление среди источников в каталогах CATS для заданного списка объектов. Кросс-идентификация - это одна из основных процедур в задачах ``раскопок данных'' (data mining), на которые CATS была ориентирована с момента ее создания.

Кросс-идентификация позволяет выбирать все источники внутри некоторого окна поиска вокруг объектов, задаваемых пользователем. При определении окна отождествления можно выбрать форму (эллипс/прямоугольник) и размер. Кроме того, при работе описываемой процедуры учитываются ошибки определения координат, имеющиеся внутри обрабатываемых списков. Для ряда каталогов (IRAS) ошибки определяются с учетом наклона эллипса диаграммы направленности. Вероятность правильного отождествления объектов может быть оценена процедурой, описанной формулой (2.9).

Взаимодействие программ кросс-идентификации и каталогов и базы данных описаний выполняет процедура cats_match, распределяющая задания по выбранным каталогам. Она, как и ранее описанная процедура cats_sel, обеспечивает взаимодействие между пользовательскими интерфейсными программами и нижним уровнем.

Задача кросс-идентификации по параметрам решается на всех уровнях управления CATS.

3.4. Ввод и вывод: уровни доступа и форматы вывода

Существует шесть уровней доступа к базе данных CATS и ее системе управления:
  1. администраторский (с консоли) - доступ ко всем уровням работы с CATS;
  2. внутрилабораторный, I (по протоколу SSH) - доступ к программам cats_match и cats_sel;
  3. внутрилабораторный, II (по протоколу NFS) - доступ к астрофизическим каталогам с других (разрешенных администратором) компьютеров без использования программ управления базой данных;
  4. FTP-доступ (ftp://cats.sao.ru) к астрофизическим данным и описаниям для внешнего пользователя;
  5. автоматизированный доступ через электронную почту (e-mail: cats@sao.ru - послать пустое письмо), обеспечивающий запуск задач на CATS в ``слепой'' фоновой пакетной моде с автоматической отправкой результата пользователю;
  6. HTTP-доступ (http://cats.sao.ru) как к данным, так и к системе управления CATS: программам выборки и поиска (Рис.3.2).
CATS homepage Рис.3.2. Стартовая страница базы данных CATS для выборки по параметрам (разработана В.Н.Черненковым и др., 1997). Рисунок опубликован в работе (Verkhodanov et al., 1997c).

Для организации доступа к программам cats_match и cats_sel В.Н.Черненковым (Черненков и др., 1997) были разработаны интерфейсные CGI-процедуры, обслуживающие клиентские запросы по протоколам SMTP (e-mail) и HTTP, а также программа для синхронизации базы данных описаний cats_descr и содержимого форм запроса.

Для запуска процедур CATS с помощью электронной почты разработаны специальные форматы, подробное описание которых можно получить по e-mail, послав пустое письмо по адресу cats@sao.ru.

После выполнения вычислительных запросов пользователю доставляется выводимый результат, записанный в одном из следующих форматов:

Результирующий файл по умолчанию сортируется в порядке возрастания прямого восхождения и может без изменений обрабатываться программой spg системы обработки FADPS.

3.5. Анализ кросс-идентификаций внутри CATS

Рассмотрим возможности использования процедур выборки объектов на основе двух исследований, проведенных в рамках базы данных CATS: отождествление декаметровых радиоисточников, координаты которых имеют большие боксы ошибок (Verkhodanov et al., 2000d; Верходанов и др., 2003b) и исследование объектов кросс-идентификации радио и инфракрасных каталогов (Верходанов и др., 2003c). По результатам этих исследований получены новые списки галактик с крутыми радиоспектрами.

3.5.1. Отождествление декаметровых радиоисточников

Каталог 1822 радиоисточников, полученный с помощью телескопа УТР (Харьков) Брауде и др. (Braude et al., 1978-1994) на частотах декаметрового диапазона 10, 12.6, 14.7, 16.7, 20 и 25МГц, покрывает около 30% неба и является самым низкочастотным каталогом, доступным в настоящее время. Поэтому, используя данные этого каталога, можно провести отождествления объектов в низкочастотной области и построить их спектры либо получить верхние границы плотностей потока в декаметровом диапазоне волн для источников Северного неба. Оригинальные публикации не дают информации об отождествлении для 121 (7%) источников, а для большинства источников (81%) отсутствуют оптические отождествления.

Наша цель состояла в том, чтобы идентифицировать по возможности все УТР объекты с известными радиоисточниками. Кросс-идентификация и дальнейшие исследования позволили нам как уточнить положения радиоисточников, так и получить их радиоспектры. По новым координатным данным для ряда объектов удалось провести оптические отождествления c объектами цифрового Паломарского Атласа. Данные о спектрах позволили построить выборки источников в декаметровом диапазоне в зависимости от морфологии спектра, например, выборки источников с крутыми спектрами.

Чистка данных.
Проблема построения спектров радиоисточников каталога УТР, обнаруженных на Харьковском Т-образном радиотелескопе (Брауде и др., 1996) в декаметровом диапазоне волн (10МГц, 12.6МГц, 14.7МГц, 16.7МГц, 20МГц, 25МГц), связана прежде всего с отождествлением источников в больших боксах ошибок, в данном случае в окне 40'x40'cosec(δ), полученных при кросс-идентификации в базе данных CATS (Verkhodanov et al., 1997a). Для решения этой проблемы мы применили интерактивную обработку радиоспектров (Верходанов и др., 1997b), полученных путем кросс-идентификации объектов УТР каталога с источниками базы данных CATS с окном отождествления 40 минут дуги. Характеристики основных каталогов, используемых при отождествлении, приводятся в Таблице 3.1.

Таблица 3.1. Характеристики основных каталогов, используемых при отождествлении декаметровых объектов.
Имя ЧастотаHPBW(') Slim(мЯн)Ссылка
6C 151 4.2 ~200 Hales et al., 1988, 1990
7C 151 1.2 80 McGilchrist et al., 1990
MIYUN 232 3.8 ~100 Zhang et al., 1997
WENSS 325 0.9 ~18 Rengelink et al., 1997
TXS 365 ~0.1 ~200 Douglas et al., 1996
B3 408 3x5 100 Ficarra et al., 1996
WB92 1400 10x11 150 White & Becker, 1992
87GB 4850 3.7 25 Gregory & Condon, 1991
GB6 4850 3.7 15 Gregory et al., 1996
PMN 4850 4.2 30 Wright et al., 1996
MSL разл. разл. разл. Dixon, 1970, 1981
< UTR IDs Spectra
UTR IDs Coords
Рис.3.3. Слева - Спектры двух источников, дающих вклад в УТР объект. На графике практически неотличимы. Справа - Расположение двух блендирующих источников и соответствующего объекта УТР каталога на координатной плоскости. Данные почищены. Заштрихованные кружки - точки УТР. Рисунок опубликован в работе (Верходанов и др., 2003b).

Чистка спектров производилась программой spg (Верходанов, 1997) по отработанной методике (Верходанов и др., 1997b). При чистке удалялись источники, спектры которых не достигают точек каталога УТР при аппроксимации стандартными кривыми. Поиск предполагаемых кандидатов на отождествление состоял из нескольких шагов:

  1. Производилась кросс-идентификация объектов каталога УТР (Braude et al., 1978-1994) с основными радиокаталогами базы данных CATS (Verkhodanov et al., 1997a), исключая высокочувствительный каталоги NVSS (до 2.5мЯн на 1400МГц) (Condon et al., 1998) и FIRST (до 1мЯн на 1400МГц) (White et al., 1997).
  2. В боксе поиска (40'x40') выделялись все объекты из полученного списка, которые имеют несколько разночастотных точек.
  3. Спектр каждого объекта аппроксимировался кривой и экстраполировался до частот УТР.
  4. Из полученного списка объектов внутри этого бокса выделялись радиоисточники по следующим условиям:
    1. значение оцененных плотностей потоков из бокса