TA-Lib で 30 種類のテクニカル指標を一括生成 | 生成AIxPythonで始める株式分析|Python×J-Quants

TA-Lib は単発で 1 指標を呼ぶよりも、複数指標をまとめて DataFrame の列に追加 する用途で真価を発揮します。本記事では、オーバーラップ系・モメンタム系・パターン認識関数を組み合わせて 30 種類以上の特徴量を一括生成する手順と、自前実装との結果比較を行います。

関数カテゴリの確認

TA-Lib の関数は次のカテゴリに分かれます。

1
import talib
2
groups = talib.get_function_groups()
3
for k, v in groups.items():
4
    print(f"{k}: {len(v)} functions")

主要なカテゴリは次のとおりです。

カテゴリ	例
Overlap Studies	SMA, EMA, BBANDS, KAMA, SAR
Momentum Indicators	RSI, MACD, ADX, CCI, STOCH
Volume Indicators	OBV, AD, ADOSC
Volatility Indicators	ATR, NATR, TRANGE
Cycle Indicators	HT_DCPERIOD など
Pattern Recognition	CDLDOJI, CDLHAMMER, CDLENGULFING など

パターン認識(Pattern Recognition)は約 60 種類あり、3 値(-100 / 0 / 100) を返します。陽の数値はブル(強気)、陰はベア(弱気)、0 は該当なしという意味です。

サンプルデータの準備

1
import numpy as np
2
import pandas as pd
3
import talib
4

5
rng = np.random.default_rng(seed=12345)
6
n = 400
7
returns = rng.normal(loc=0.0005, scale=0.013, size=n)
8
close = 1700 * np.exp(np.cumsum(returns))
9
high  = close * (1 + np.abs(rng.normal(scale=0.008, size=n)))
10
low   = close * (1 - np.abs(rng.normal(scale=0.008, size=n)))
11
open_ = np.concatenate([[close[0]], close[:-1]])
12
volume = rng.integers(50_000, 800_000, size=n).astype(float)
13

14
ohlc = pd.DataFrame(
15
    {"O": open_, "H": high, "L": low, "C": close, "Vo": volume},
16
    index=pd.date_range("2025-04-01", periods=n, freq="B"),
17
)

OHLCV(O, H, L, C, Vo)を持つ DataFrame を入力にします。

一括生成関数を書く

カテゴリごとに分けて関数化します。引数の timeperiod は標準値を使い、複数期間が欲しい場合はループで列を増やします。

1
def add_overlap(df: pd.DataFrame) -> pd.DataFrame:
2
    out = df.copy()
3
    c = df["C"].values
4
    out["sma_5"]   = talib.SMA(c, timeperiod=5)
5
    out["sma_25"]  = talib.SMA(c, timeperiod=25)
6
    out["sma_75"]  = talib.SMA(c, timeperiod=75)
7
    out["ema_12"]  = talib.EMA(c, timeperiod=12)
8
    out["ema_26"]  = talib.EMA(c, timeperiod=26)
9
    out["wma_25"]  = talib.WMA(c, timeperiod=25)
10
    out["kama_30"] = talib.KAMA(c, timeperiod=30)
11
    upper, mid, lower = talib.BBANDS(c, timeperiod=20, nbdevup=2, nbdevdn=2)
12
    out["bb_upper"], out["bb_mid"], out["bb_lower"] = upper, mid, lower
13
    out["sar"] = talib.SAR(df["H"].values, df["L"].values)
14
    return out
15

16
def add_momentum(df: pd.DataFrame) -> pd.DataFrame:
17
    out = df.copy()
18
    h, l, c = df["H"].values, df["L"].values, df["C"].values
19
    out["rsi_14"] = talib.RSI(c, timeperiod=14)
20
    macd, sig, hist = talib.MACD(c, fastperiod=12, slowperiod=26, signalperiod=9)
21
    out["macd"], out["macd_signal"], out["macd_hist"] = macd, sig, hist
22
    out["adx_14"] = talib.ADX(h, l, c, timeperiod=14)
23
    out["cci_14"] = talib.CCI(h, l, c, timeperiod=14)
24
    k, d = talib.STOCH(h, l, c, fastk_period=14, slowk_period=3, slowd_period=3)
25
    out["stoch_k"], out["stoch_d"] = k, d
26
    out["roc_10"] = talib.ROC(c, timeperiod=10)
27
    out["mom_10"] = talib.MOM(c, timeperiod=10)
28
    out["willr_14"] = talib.WILLR(h, l, c, timeperiod=14)
29
    return out
30

31
def add_volume(df: pd.DataFrame) -> pd.DataFrame:
32
    out = df.copy()
33
    h, l, c, v = (df["H"].values, df["L"].values, df["C"].values, df["Vo"].values)
34
    out["obv"]   = talib.OBV(c, v)
35
    out["ad"]    = talib.AD(h, l, c, v)
36
    out["adosc"] = talib.ADOSC(h, l, c, v, fastperiod=3, slowperiod=10)
37
    return out
38

39
def add_volatility(df: pd.DataFrame) -> pd.DataFrame:
40
    out = df.copy()
41
    h, l, c = df["H"].values, df["L"].values, df["C"].values
42
    out["atr_14"]    = talib.ATR(h, l, c, timeperiod=14)
43
    out["natr_14"]   = talib.NATR(h, l, c, timeperiod=14)
44
    out["trange"]    = talib.TRANGE(h, l, c)
45
    return out

パターン認識関数を一括で呼ぶ

パターン認識関数(CDL...)は引数の形が共通(O, H, L, C)です。get_function_groups() から名前を取り、ループで一括呼び出しできます。

1
def add_patterns(df: pd.DataFrame) -> pd.DataFrame:
2
    out = df.copy()
3
    o, h, l, c = (df["O"].values, df["H"].values, df["L"].values, df["C"].values)
4
    pattern_names = talib.get_function_groups()["Pattern Recognition"]
5
    for name in pattern_names:
6
        func = getattr(talib, name)
7
        out[name.lower()] = func(o, h, l, c)
8
    return out

pattern_names は ["CDL2CROWS", "CDL3BLACKCROWS", ...] のような形になります。出力は -100 / 0 / 100 の整数列です。

全部つなげる

ラッパー関数 make_features で 4 つを順に呼びます。

1
def make_features(df: pd.DataFrame) -> pd.DataFrame:
2
    out = (
3
        df.pipe(add_overlap)
4
          .pipe(add_momentum)
5
          .pipe(add_volume)
6
          .pipe(add_volatility)
7
          .pipe(add_patterns)
8
    )
9
    return out
10

11
features = make_features(ohlc)
12
print(features.shape)
13
print(features.columns.tolist()[:20])

OHLCV の 5 列に加えて、30 列以上の特徴量とパターン列が追加されます。パターンを除いてもオーバーラップ・モメンタム・出来高・ボラの 4 系統で 25 列前後になります。

NaN の扱い

最初の 75 日(SMA(75) の確定まで)は多くの列が NaN になります。学習・分析の前に確認します。

1
nan_rate = features.isna().mean().sort_values(ascending=False)
2
print(nan_rate.head(10))
3

4
features_clean = features.dropna()
5
print(features_clean.shape)

NaN を埋めると、初期の値が「平均回帰っぽいバイアス」を入れることになるため、原則は dropna で先頭を切り落とす のが安全です。

自前実装との一致確認

代表的な指標を、自前実装と TA-Lib の両方で計算して差を比較します。

1
sma25_own = ohlc["C"].rolling(25).mean()
2
sma25_tal = pd.Series(talib.SMA(ohlc["C"].values, 25), index=ohlc.index)
3
print((sma25_own - sma25_tal).abs().max())  # 期待値: ほぼ 0
4

5
# RSI(14) Wilder
6
def rsi_own(close, n=14):
7
    delta = close.diff()
8
    up = delta.clip(lower=0).ewm(alpha=1/n, adjust=False, min_periods=n).mean()
9
    dn = (-delta).clip(lower=0).ewm(alpha=1/n, adjust=False, min_periods=n).mean()
10
    rs = up / dn.replace(0, np.nan)
11
    return 100 - 100 / (1 + rs)
12

13
rsi14_own = rsi_own(ohlc["C"], 14)
14
rsi14_tal = pd.Series(talib.RSI(ohlc["C"].values, 14), index=ohlc.index)
15
print((rsi14_own - rsi14_tal).abs().describe())

SMA は数値レベルで一致、RSI も Wilder の seed が同じなら一致します。一致しないときは ddof・初期化・adjust の差を確認します。

パフォーマンスの目安

TA-Lib は C で実装されているため、自前 pandas 実装より高速です。1 銘柄 1000 行程度では差は小さいですが、数百銘柄 × 数年 のような大量データでは差がはっきり出ます。

1
import time
2

3
t0 = time.perf_counter()
4
for _ in range(100):
5
    ohlc["C"].rolling(25).mean()
6
t_pd = time.perf_counter() - t0
7

8
t0 = time.perf_counter()
9
for _ in range(100):
10
    talib.SMA(ohlc["C"].values, 25)
11
t_tl = time.perf_counter() - t0
12

13
print(f"pandas: {t_pd*1000:.1f} ms / 100 runs")
14
print(f"talib : {t_tl*1000:.1f} ms / 100 runs")

数値はマシンに依存します。「pandas でも十分速い」「TA-Lib のほうが速い」のどちらの判断もありえるので、自分の用途に合わせて測ってから選びます。

注意点

入力は NumPy 配列: pandas Series を渡すなら .values を付ける。Series 直渡しでも動くが、index が落ちることに注意
NaN の混入: np.nan を含む入力は出力も NaN になる。事前に dropna するか、ffill / bfill の方針を決める
パターン認識の解釈は慎重に: -100 / 100 はあくまで「形として一致」のフラグ。それが将来の値動きに直結するかは別問題
特徴量の多重共線性: 30 列以上を機械学習にそのまま投入すると、似た指標が競合して係数が不安定になる。相関の高いものを削るか、PCA などで縮約する

生成AI へのプロンプト例

複数銘柄に対して一括計算するパイプラインを依頼します。

入力 DataFrame:
- columns: Date, Code, O, H, L, C, Vo

Code ごとに、以下の TA-Lib 指標を一括計算する関数 build_features(df) を書いてください。
- SMA(5, 25, 75), EMA(12, 26)
- RSI(14), MACD(12, 26, 9), ADX(14), CCI(14), STOCH(14, 3, 3)
- BBANDS(20, 2)
- ATR(14), NATR(14)
- OBV, AD, ADOSC(3, 10)
- パターン認識を全種類

要件:
- pandas 2.2 系
- Code 内で日付昇順に整列してから計算
- 戻り値は元の列 + 上記指標を追加した DataFrame
- Code をまたいだ計算は行わない(groupby + transform / apply)
- 末尾に動作確認サンプルを付ける

まとめ

TA-Lib は 特徴量の一括生成 で力を発揮する
カテゴリは Overlap / Momentum / Volume / Volatility / Pattern Recognition の 5 系統
パターン認識関数は get_function_groups() から名前を取得してループで呼ぶ
自前実装との一致確認(SMA・RSI など)で、ライブラリの挙動を把握しておく
大量銘柄 × 多指標では、自前実装より速度面で優位

目次