Kordopatis11a

Automatic Stellar Spectra Parameterisation in the IR CaII Triplet Region

Kordopatis + 7

2011 AA 535,

　アブストラクト

　背景　
　銀河系の化学、運動学的性質を探るには数万の星、将来は数百万、の分光サーベイが必要となる。それには自動解析が必須である。いくつかの現在進行中の分光サーベイは Ca II 三重線 ∼ 8500 A を含む波長帯を選択している。本論文はそのようなスペクトルの自動解析を目指す。

　目標　
　スペクトルから、Teff, log g, [M/H] を得る方法を開発する。パラメタ―空間での縮退を研究し、得られたパラメタ―に誤差を評価する。

　方法　
　二つのアルゴリズムを研究する。両方とも、観測スペクトルを人工スペクトルのグリッドと比較するのだが、数学的手法が違う。
（１）第１の方法は MATTISSE と呼ばれ、スペクトルの局所的なフィットからパラメタ―を導く。波長空間の各ピクセルは独立に扱われ、与えられたスペクトルの値に対する各波長でのフラックスの敏感度を人工スペクトルから決定する。この敏感度ベクトルを使って、観測スペクトルを投影して星のパラメタ―を得る。

　第２の方法 DEGAS はパターン認識法を採用し、当然ながらパラメタ―空間全体を見渡す。観測と人口スペクトルを比較して行き、波長帯全ピクセルで総計し、追加の補正を加えて、決定ツリーを辿る。

　結果　
　HR 図上の様々な個所で、パラメタ―の縮退が見つかった. 高温の矮星と巨星は同じスペクトルの特徴を持つ。低温矮星では log g を決めることが難しい。実験から、局所法は S/N 比が高い場合有効と分かった。決定ツリー法は S/N 比が低くなると有利になる。そこで、二つを組み合わせ、薄い、厚い円盤星なら S/N = 20 まで、ハロー星なら S/N = 50 なら銀河系考古学に十分な精度の結果が得られることを示した。

　結論　
　パラメタ―縮退は距離や空間速度のような量に系統的な誤差を生む原因となる。

　１．イントロダクション　

　Ca II 三重線領域のライン　

　そこには Ca II 以外に Ca II, Si I, Mg I の α 元素ラインがあり、低分散でも検出可能である。これ等のラインと Fe との強度比は元素進化の研究に使え、また Ca II 三重線は [M/H] の評価に役立つ。その上、パッシェンラインは G3 より早期の星で見える。　Mg I 8807 A は log g の決定に有用である。低温度星では CN, TiO が見える。

　大量分光データ　

　RAVE は　8410 - 8795 A, R = 7500, I ≤ 13 の UK シュミット 6dF 多体分光器を使い、　40 万体以上のスペクトルを集めた。
　DART は FLAMES/VLT で Ca II 三重線領域スペクトルで銀河系考古学を研究した。
　GAIA はその Radial Velocity Spectrometer (RVS) R = 11500　で数千万のスペクトルを集めるだろう。

パラメタ―の縮退　

　この領域では、 Teff と log g の強い縮退が起きる。そのため、巨星と矮星の取り違いがしばしば生じる。この縮退をほぐす方策が必要である。

　自動解析プログラム　
　Bijaoui et al 2010 にあるように、いくつかの自動解析プログラムが存在する。

（１）最小距離法： Nelder-Mead アルゴリズム、ガウスーニュートンアルゴリズム

（２）与えられたベクトルへの投影を最適化。主成分解析。MATISSE アルゴリズム

（３）人工神経ネットワーク、決定ツリー。

　２．自動解析法　　

　２．１．MATISSE　　

　MATrix Inversion for Spectral SynthEsis = MATISSE　
　詳しくは Recio-Blanco et al 2006, Bijaoui et al 2010 を見よ。
θ_i(star) ＝ Teff, log g, [M/H] の評価値とする。それは観測スペクトル O(λ) を特別なベクトル B_θ(λ) に投影して得られる。

　　　　　θ_i(star) ＝ Σ_λ B_{θ_i}(λ)O(λ)　　　(1)

このベクトル B_θ(λ) は人工スペクトルライブラリーを用いた訓練フェイズの間に計算される。人工スペクトルは観測と同じ波長域と分解能のものを使用する。 B_θ(λ) が直交していれば大気パラメタ―は正確に決められる。そうでないと縮退が生じる。

　B_θ(λ) 　
　B_{θ_i}(λ) が以下のように表されると仮定する。

　　　　　　B_{θ_i}(λ) = Σ_jα _ijS_j(λ)　　　　　　（２）

ここに、S_j(λ) = j-種人工スペクトル。α_ij　 = ウェイト。（１）に（２）を代入すると、

　　　　　θ_i ＝ Σ_λ Σ_jα_ij S_j(λ)O(λ)　

　　　　　　　　　　＝ Σ_j[α_ijΣ_λ O(λ)S_j(λ)]　　

　　　　　　　　　　＝ Σ_jC_ija_j　　　　　(3)

ここに C_ij　と　a_j　は S_i と S_j の相関行列とウエイトのベクトルである。
( 「ウエイトのベクトル」の意味不明。)

　Thevenin, Bijaoui, Katz 2003 による解説（分かり易い）　
　Thevenin, Bijaoui, Katz 2003 "Chemical Abundances from GAIA Spectra" in "GAIA Spectroscopy, Science and Technology" ASP vol 298 によると、特性ベクトル（スペクトル）B(k) は参照スペクトルの一次結合で与えられる。

B(k) = Σ_i=1,Iα_iS_i(k)

ここに、k = 1, K は波長番号、i = 1, I は参照スペクトルの番号である。

重み α_iの決定が問題である。

j-番星の物理パラメターΘ_j は、B(k) に S_j(k) を投影して得られると仮定する。

Θ_j = Σ_k=1,K B(k)S_j(k) 　　　　　　(波長積分に相当)

　　= Σ_k=1,KΣ_i=1,Iα_i S_i(k)S_j(k)

　　= Σ_i=1,I[Σ_k=1,KS_i(k)S_j(k)] α_i

　　= Σ_i=1,IC_jiα_i

　C_ji = Σ_k=1,KS_i(k)S_j(k) 　は、参照スペクトル同士の相関行列である。したがって、その逆行列 R_ij を参照スペクトルのパラメタ―に掛ければ、重み α_i　が得られるであろう。

　　　　　α_i = Σ_j=1,IR_ij Θ_j

　規格化スペクトル　
　MATTISE 法は規格化スペクトルを扱い、したがって大気パラメタ―の情報は吸収線強度に全て収められている。ノイズや、モデルスペクトルと実際のスペクトルとのズレなどを考えると、有効温度、重力、メタル量などのパラメタ― に関係するライン強度を考慮し、その他のラインへの重みを減らすのが賢明であろう。

　何次までの近似を行うか？　
　その最適化は、B(λ) を計算するときに、具体的には相関行列 C_ij を逆変換する際に行われる。直接の変換は、パラメタ―に起因する全ての n-次の変化を考慮する。
( スペクトルとパラメタ―の非線形関係？)
しかし、スペクトルの１次の変化だけでよいなら、 C 行列の逆変換の近似解を求めるべきである。近似の次数は、例えば Landweber 1951 のような逐次アルゴリズムを用いれば制御可能である。

　逐次回数　
　実際には相関行列は不良条件になることが多い。その時には固有値の多数がゼロとなる。 Landweber アルゴリズムでは、行列条件に応じた変換を適用する。その意味は、第一固有ベクトルは第１逐次近似の際に逆変換され、最小固有ベクトルを得るにはより多数回の逐次近似を必要とするということである。

　相関値に応じた特性ベクトル　
　３．１．節で述べた人工スペクトルのグリッドをとり、異なる相関値 0.75, 0.80, 0.90, 0.95, 0.98 に対して、逐次近似を止めた。
( 全然分からない。)
そして、対応する C^-1 から特性ベクトル B_θ(λ) を計算した。図１に異なる相関値に対応した B_θ(λ) を示す。図を見ると分かるが、相関値 0.80 の場合(図１下)、スペクトルの弱い吸収線は全て非常に弱い重みしか与えられない。このような近似的 B_θ(λ) はスペクトルの精度が低く、弱いラインがノイズに埋もれるような場合には最適である。

最適な結合　
　様々な近似度の B_θ(λ) をノイズの高いスペクトルに適用することで、最適な結合を得ることができる。
( これも意味不明。)

図１．MATISSE 基底関数の例。見易さのため、波長域の一部のみ示す。ここでは B_Teff(λ) 関数を,　Teff = 5250 K, log g = 4.5, [M/H] = -0.75, [α/H] = 0.3dex の星に対して示す。
( どんな星に対してもこの関数で済ませるのではなかったのか？全然わからない。)

　２．２．DEGAS: オブリーク k-次　決定ツリー法　

　原理　
　人工スペクトルのグリッドをパターンの集合と考え、その中に観測スペクトルと同じものを探す方法である。人工スペクトルを使って、教育期に認識規則が確立される。

　決定ツリー　
　決定ツリーはデータマイニングの世界では普通に使用される手法である。ツリーの分岐点毎にデータセットはさらに数個のサブセットに分割される。葉っぱレベルまで来る＝同定である。k - 次ツリーは k - 次元（ここでは k = 3, Teff, log g, [M/H]）空間ないでの基礎的な分割構造である。決定は分岐ベクトルへの観測の投影から得られる。古典的、つまり軸平行型、の決定ツリーは各分岐点で一つの変数しか扱わない。特別な場合、オブリーク決定ツリーの場合、分岐ベクトル（D_n）は構造特性（つまり大気パラメタ―）の一次結合から得られる。これは単純でより正確な決定ツリーへとつながるのである。

　DEGAS アルゴリズム　
　DEGAS = DEcision tree alGorithm for AStrophysics アルゴリズムは k - 次オブリーク決定ツリーで、簡単なモデルが Bijaoui et al 2010 で紹介されている。認識規則は以下の通り。

（１）ピクセル当たり平均フラックスのベクトル M を計算。

（２）分岐点における各スペクトル S_j に対し、内積 c_j = S_j を計算。⟨c⟩ = c_j の中間値。

（３）S_j を二つのグループ T₁, T₂ に分ける。基準は
　　　　　T₁:　　　c_j ≤ ⟨c⟩
　　　　　T₂:　　　c_j ≥ ⟨c⟩

（４）平均ベクトル M₁, M₂ を各グループで計算し、差ベクトル D = M₁ - M₂ を決める。

（５）ホイヘンスの定理によると、T₁ と T₂ が最も良く分離するのは、M₁ と M₂ の周辺の分散が最少、つまり、 M と D が平行の時である。

（６）

　？？？　
　これは全然分からない。

　３．訓練用分光データの用意　

　３．１．訓練用分光データの用意　
　[α/H] - [M/H] 関係　
　人工スペクトルは表１のパラメタ―で MARCS モデルと Turbospec コードで計算した。メタル量と α元素量との関係は以下のように仮定した。

[α/H] [M/H]

0.0 dex [0.0, 1.0]

+0.1 -0.25

+0.2 -0.50

+0.3 -0.75

+0.4 ≤ -1.0

波長域は 8390 - 8860 A, Δ&lambda: = 0.02 A である。スペクトルライブラリーは 23501 ピクセルの 2905 スペクトルが含まれる。

　観測スペクトル　
　FLAMES の LR8 セットアップなので、 8400 - 8820 A が観測スペクトルである。それに合うように、（計算、多分）スペクトルは 0.4 A サンプリングの 957 ピクセルになった。
　３．２．ラインリスト　
　VALD　
　 VALD データベースから原子線リストを得た。
　３．３．テストセット　
内挿スペクトル　
　 M-個のパラメタ― θ_0m (m = 1 - M) を持つ人工スペクトル S₀(k) (k = 1,K は波長) を内挿で導くことを考える。このパラメタ―は参照スペクトルのグリッド点の間にある。グリッド点のパラメタ―を θ_m (m = 1 - M)、スペクトルを S(k) とする。m-種パラメタ― の特性ベクトル（スペクトル）を B_m(k) とする。すると、

　　　　　S₀(k) - S(k) = Σ_{m = 1,M} (θ_0m - θ_m)Σ_{n = 1,M} T^-1_m,nB_n(k)　　　(6)

ここに、T_m,n は特性ベクトルの相関行列である。

　　　　　T_m,n = Σ_{k = 1,K}B_m(k) B_n(k)

( なぜこの式になるか、分からない。多成分解析で考えると、ある星のスペクトル S(k) を特性ベクトル B_n(k) へ射影すると、星パラメタ― θ_n が得られる。

表１．訓練グリッド用大気のパラメタ―

だから、単純には座標軸の変換のように考えて、

　　　　　 S(k) = Σ_{m = 1,M}θ_mB_m(k)

　　　　　S₀(k) - S(k) = Σ_{m = 1,M} (θ_0m - θ_m)B_m(k)

となる。B_m(k)が直交してないことを考えると上の式のようになるのか？)

　ブザンソンモデルを使ったテスト　
　 Robin, Reyle, Derriere, Picaud 2003 の銀河系ブザンソンモデルから、視線方向に沿った模擬星カタログを取り出した。ウェブサイトから、銀河系バルジ、北銀極、中間星域 (l = 245, b = 45) 方向から 10⁴ の模擬サンプル星を取り出した。図２がそれである。テストのため、その各星に対し、ブザンソンモデルのメタル量と、それより 0.75 dex 低メタルにしたサンプルを用意した。

http://model.obs-besancon.fr/

この 2 × 10⁴ 個の模擬星スペクトルを式（６）を用いて FLAMES LR8 分解能で内挿で得る。
(しかし、結局３個のパラメタ―に対応した３個の特性スペクトルの線形結合で4 万個のスペクトルを表すわけか。単純に近接パラメタ―グリッド点数個で内挿した方がよさそうだが、そうしない深い理由があるのかな？ )

図２．テストセットへの入力パラメタ―。スペクトルはブザンソン銀河系モデルのウェブサイトから要請される模擬星カタログに基づいて計算された。

表２．分布で　70 % にあたるところのエラー値。

　４．二つの方法の性能　

　４．１．MATISSE 法の性能　

図３．MATISSE 法によるスペクトル解析の結果を HR 図で示す。カラーの意味は図２と同じ。低メタルの星は吸収線情報が少なく分散が大きくなる。

図５．ノイズなしの人工スペクトルによる縮退の例。黒＝高温矮星。赤＝低温巨星。二つのスペクトルが異なるのは強いラインのコアと Pa12(8750 A) であるが、ウィング部は殆ど同じ。

　MATISSE 法の解析結果　
　S/N 比 = 10, 20, 50, 100 の 4 種類の計 8 万人工スペクトルを MATISSE 法で解析した。図３は H-R 図の形が S/N 比でどう変わるか示す。表２は分布 70 % でのエラー値の大きさを示す。図４の左側列が TISSE 法のエラーである。

　MATISSE 法のエラーの特徴　
（１）高メタル矮星では S/N = 20 まで良い結果が得られる。低メタルになるとエラーが増加する。

（２）縮退領域が二つある。 Teff > 6000 の準矮星と巨星枝の間では Teff と log g の間で似たスペクトル特徴が共有される。もう一つは低温の準矮星に関して log g がよく決まらないという問題である。

　二つの縮退は主に Ca II 三重線の振る舞い方に原因がある。であとごちゃごちゃは略。

図６．左： MATISSE と右：DEGAS S/N = 20 でのエラー相関。色の意味は図２と同じ。

図４．導いたパラメタ―の相対エラー分布　70% のところの値と S/N 比の関係。左：MATISSE, 中：DEGAS, 右：パイプライン。黒菱形＝薄い円盤種族矮星 Teff = [5000, 6000]、[M/H] = [-0.25, 0.5]。赤三角＝厚い円盤種族矮星 Teff = [5000, 6000]、[M/H] = [-1.5, -0.25]。青四角＝ハロー巨星 Teff < 6000 K, log g < 3.5, [M/H] < [-2.5, -1.25]。

表３．分布で　70 % にあたるところの DEGAS エラー値。

　４．２．DEGAS 法の性能　

　低 S/N に強い 　
　MATISSE が局所的な B(k) を用いるのに対し、DEGAS 法はパラメタ―空間を全体的に眺める。そのため、局所的極小のわなにはまりにくい。それは、 S/N 比が悪くなってもパラメタ―精度はそれほど落ちないことを意味する。S/N = 35 より上では MATISSE, 下では DEGAS が良い結果を生む。

図７．DEGAS 法によるスペクトル解析の結果を HR 図で示す。カラーの意味は図3と同じ。

　４．３．視線速度により生み出されるエラー　

図８．視線速度とエラーの関係

　５．最終的に採用されたパイプライン　

表４．最終パイプラインによるエラー

図１０．低温高メタル矮星に対する再規格化の手順。

　６．観測スペクトルへの応用　

　観測スペクトルデータベース　　
　対象とする波長域で、高精度スペクトルのデータベースは二つしかない。
（１）S⁴N Allende Prieto et al 2004。近傍 118 星のサーベイ。大部分は高メタル矮星。3620 - 9210 A, R = 50,000, S/N > 200. しかし、我々の波長帯に回折次数のギャップが引っ掛からない星は 68 星であった。
（２）CFLIB Valdes et al 2004。900 高 S/N スペクトル。 3460 - 9464 A. Δλ = 1.2 A. HR-図全体をカバーしている。メタル量は [M/H] = -2.5 dex まで。ただ、カタログのパラメタ―は幾つかの独立な研究結果からの寄せ集めである。

これらのスペクトルを均して本論文で扱う分解能に変換し、前述のパイプラインを通した。

　S⁴N との比較　
　表５に、パイプラインで導いたパラメタ―とデータベースのパラメタ―との系統誤差と分散を載せた。S⁴N との差は、ΔTeff = -108, Δlog g = -0.21dex, Δ[M/H] = -0.08dex, である。許容範囲ではあるが、無視できるほどではない。注意しておくと、我々の波長域＝GAIA RVS 帯データのみを使った解析結果、Allende-Prieto 2008, は我々のパイプライン値と一致する。

　CFLIB データ　
　CFLIB 星のカタログパラメタ―は色々な論文の寄せ集めなので、PASTEL の最新パラメタ―を使用した。その際、最低観測が二つ以上、[M/H] < -1 という条件をつけた。図１１に 162 CFLIB 星とパイプライン値との比較を示す。今回は系統的なズレを見られなかった。

表５．S⁴N, CFLIB のパラメタ―

図１１．スペクトルデータベースのカタログパラメタ―とパイプラインパラメタ― との比較。赤＝S⁴N, 黒＝CFLIB。赤破線は ΔTeff = 250 K, Δ log g= 0.5, Δ = 0.3 である。

　７．結論　

　他の波長域、新しいパラメタ―　
　今回は GAIA を考慮して 8500 A 周辺スペクトルを扱った。しかし、同じ手法は他波長域に容易に拡張できる。また、[α/Fe] を第４次元のパラメタ―として加えることも可能である。

Automatic Stellar Spectra Parameterisation in the IR CaII Triplet Region

アブストラクト

１．イントロダクション

２．自動解析法

２．１．MATISSE

２．２．DEGAS: オブリーク k-次 決定ツリー法

３．訓練用分光データの用意

３．１．訓練用分光データの用意

３．２．ラインリスト

３．３．テストセット

４．二つの方法の性能

４．１．MATISSE 法の性能

４．２．DEGAS 法の性能

４．３．視線速度により生み出されるエラー

５．最終的に採用されたパイプライン

６．観測スペクトルへの応用

７．結論

　アブストラクト

　１．イントロダクション　

　２．自動解析法　　

　２．１．MATISSE　　

　２．２．DEGAS: オブリーク k-次　決定ツリー法　

　３．訓練用分光データの用意　

　３．１．訓練用分光データの用意　

　３．２．ラインリスト　

　３．３．テストセット　

　４．二つの方法の性能　

　４．１．MATISSE 法の性能　

　４．２．DEGAS 法の性能　

　４．３．視線速度により生み出されるエラー　

　５．最終的に採用されたパイプライン　

　６．観測スペクトルへの応用　

　７．結論