第4章: バッファリングとキャッシュ階層の理論 - 効率的I/Oの計算機科学的基盤

4.1 バッファリングの歴史と理論的起源

4.1.1 初期計算機におけるI/O問題

1940年代から1950年代の初期コンピュータにおいて、I/O処理は最大のボトルネックでした。ENIAC（1945年）やUNIVAC（1951年）では、CPUの処理速度と入出力装置（パンチカード、磁気テープ）の速度差が数百倍から数千倍もありました。

UNIVAC I (1951年) の速度比較:

CPU処理速度:     ~1,000 加算/秒
磁気テープ:      ~12,000 文字/秒
カードリーダー:  ~200 カード/分 (約2,600 文字/秒)

問題: CPUが入力待ちで99%以上アイドル状態

この問題は「I/Oバウンド問題」と呼ばれ、計算機科学の初期から中心的な課題でした。

1950年代の解決策: オフラインバッファリング

初期の解決策は物理的な分離でした。IBM 704（1954年）では、補助的な小型コンピュータを使用してパンチカードを磁気テープに変換し、メインコンピュータは高速な磁気テープからのみ読み取りました。

[パンチカード] → [補助計算機] → [磁気テープ] → [メイン計算機]
                  ↓
            オフラインでの
            事前バッファリング

4.1.2 チャネルプログラミングとDMA

1957年、IBM 709でチャネルプロセッサが導入されました。これはI/O処理を専用プロセッサに委譲し、CPUと並行して動作させる革新的なアーキテクチャでした。

従来のモデル:
┌─────┐     ┌─────────┐
│ CPU │────→│ I/Oデバイス │
└─────┘     └─────────┘
  ↓
CPU待機（アイドル）

チャネルモデル:
┌─────┐     ┌─────────┐     ┌─────────┐
│ CPU │     │ チャネル  │────→│ I/Oデバイス │
└──┬──┘     └────┬────┘     └─────────┘
   │              │
   └──────────────┘
   並行動作（CPUは他の処理を継続）

DMA（Direct Memory Access）は1961年のIBM 7090で導入され、CPUを介さずにI/OデバイスがメインメモリにDIRECTにアクセスできるようになりました。

// 現代のDMA転送の概念図（擬似コード）
struct dma_descriptor {
    void *source_address;
    void *destination_address;
    size_t transfer_size;
    int direction;  // READ or WRITE
};

// CPUがDMA転送を開始
void initiate_dma_transfer(struct dma_descriptor *desc) {
    // DMAコントローラに設定
    dma_controller->source = desc->source_address;
    dma_controller->dest = desc->destination_address;
    dma_controller->count = desc->transfer_size;

    // 転送開始（CPUはここで解放される）
    dma_controller->command = DMA_START;

    // CPUは他の作業を継続可能
    // 転送完了は割り込みで通知される
}

4.1.3 生産者-消費者問題の定式化

1965年、Edsger Dijkstraは並行プログラミングの基本問題として「生産者-消費者問題」（Producer-Consumer Problem）を定式化しました。これはバッファリングの理論的基盤となりました。

問題の定義

生産者プロセス: データを生成してバッファに追加
消費者プロセス: バッファからデータを取り出して処理

制約:
1. バッファが満杯なら生産者は待機
2. バッファが空なら消費者は待機
3. 同時アクセスによるデータ破損を防ぐ

Dijkstraはセマフォを使用した古典的解決策を提案しました：

// Dijkstraの古典的解決策（1965年）
// 現代C言語での表現

#include <semaphore.h>

#define BUFFER_SIZE 10

int buffer[BUFFER_SIZE];
int in = 0;   // 次に書き込む位置
int out = 0;  // 次に読み取る位置

sem_t empty;  // 空きスロットの数
sem_t full;   // 使用中スロットの数
sem_t mutex;  // 相互排除

void init_buffer(void) {
    sem_init(&empty, 0, BUFFER_SIZE);  // 最初は全て空き
    sem_init(&full, 0, 0);              // 最初はデータなし
    sem_init(&mutex, 0, 1);             // 相互排除用
}

void producer(int item) {
    sem_wait(&empty);    // 空きスロットを確保（P操作）
    sem_wait(&mutex);    // クリティカルセクション開始

    buffer[in] = item;
    in = (in + 1) % BUFFER_SIZE;

    sem_post(&mutex);    // クリティカルセクション終了
    sem_post(&full);     // 使用中スロットを増加（V操作）
}

int consumer(void) {
    int item;

    sem_wait(&full);     // データがあることを確認（P操作）
    sem_wait(&mutex);    // クリティカルセクション開始

    item = buffer[out];
    out = (out + 1) % BUFFER_SIZE;

    sem_post(&mutex);    // クリティカルセクション終了
    sem_post(&empty);    // 空きスロットを増加（V操作）

    return item;
}

4.1.4 有界バッファ問題とリングバッファ

生産者-消費者問題の実装として、リングバッファ（Circular Buffer / Ring Buffer）が広く採用されています。

リングバッファの構造:

         0   1   2   3   4   5   6   7
       ┌───┬───┬───┬───┬───┬───┬───┬───┐
       │   │ A │ B │ C │ D │   │   │   │
       └───┴───┴───┴───┴───┴───┴───┴───┘
             ↑               ↑
            out              in
         (読取位置)       (書込位置)

論理的には円環状:
                    ┌───┐
                 ┌──│ 0 │──┐
              ┌──│  └───┘  │──┐
            ┌─│─┐         ┌─│─┐
            │ 7 │         │ 1 │
            └───┘         └───┘
            ┌───┐         ┌───┐
            │ 6 │         │ 2 │
            └───┘         └───┘
              └──│  ┌───┐  │──┘
                 └──│ 3 │──┘
                    └───┘

リングバッファの実装：

typedef struct s_ring_buffer {
    char *data;
    size_t capacity;
    size_t read_pos;   // 次に読む位置
    size_t write_pos;  // 次に書く位置
    size_t count;      // 現在のデータ量
} t_ring_buffer;

t_ring_buffer *rb_create(size_t capacity) {
    t_ring_buffer *rb = malloc(sizeof(t_ring_buffer));
    if (!rb)
        return NULL;

    rb->data = malloc(capacity);
    if (!rb->data) {
        free(rb);
        return NULL;
    }

    rb->capacity = capacity;
    rb->read_pos = 0;
    rb->write_pos = 0;
    rb->count = 0;

    return rb;
}

// 書き込み（生産者）
ssize_t rb_write(t_ring_buffer *rb, const char *data, size_t len) {
    size_t available = rb->capacity - rb->count;
    size_t to_write = (len < available) ? len : available;

    for (size_t i = 0; i < to_write; i++) {
        rb->data[rb->write_pos] = data[i];
        rb->write_pos = (rb->write_pos + 1) % rb->capacity;
    }

    rb->count += to_write;
    return to_write;
}

// 読み取り（消費者）
ssize_t rb_read(t_ring_buffer *rb, char *data, size_t len) {
    size_t to_read = (len < rb->count) ? len : rb->count;

    for (size_t i = 0; i < to_read; i++) {
        data[i] = rb->data[rb->read_pos];
        rb->read_pos = (rb->read_pos + 1) % rb->capacity;
    }

    rb->count -= to_read;
    return to_read;
}

4.2 メモリ階層とキャッシュ理論

4.2.1 メモリ階層の経済学

コンピュータシステムのメモリは、速度、容量、コストのトレードオフによって階層化されています。これは1960年代から変わらない原則です。

メモリ階層（2024年現在の典型的な値）:

                    速度        容量        コスト/GB
                    ─────       ─────       ─────────
レジスタ            < 1ns       ~1KB        ∞（CPU内蔵）
L1キャッシュ        ~1ns        32-64KB     ~$1000
L2キャッシュ        ~4ns        256KB-1MB   ~$100
L3キャッシュ        ~10ns       8-64MB      ~$20
メインメモリ(RAM)   ~100ns      8-64GB      ~$3
SSD                 ~100μs      256GB-4TB   ~$0.1
HDD                 ~10ms       1-20TB      ~$0.02

速度差: レジスタとHDDで約1000万倍

この階層構造は1967年のMaurice Wilkesによる「slave memory」（キャッシュメモリの原型）提案から発展しました。

4.2.2 局所性の原理（Principle of Locality）

1966年、Peter Denningは「参照の局所性」（Locality of Reference）を理論化しました。これはキャッシュが有効に機能する根本的な理由です。

時間的局所性（Temporal Locality） 最近アクセスされたデータは、近い将来に再びアクセスされる可能性が高い。

// 時間的局所性の例
int sum = 0;
for (int i = 0; i < 1000; i++) {
    sum += data[i];  // 'sum' は1000回アクセスされる
}
// 変数 'sum' は時間的局所性が高い

空間的局所性（Spatial Locality） あるアドレスがアクセスされると、その近傍のアドレスも近い将来にアクセスされる可能性が高い。

// 空間的局所性の例
for (int i = 0; i < 1000; i++) {
    sum += data[i];  // data[0], data[1], data[2]... 連続アクセス
}
// 配列の連続要素は空間的局所性が高い

get_next_lineへの適用

ファイル読み取りは空間的局所性の典型例です：

// ファイルの連続読み取り
// ファイル: [A][B][C][D][E][F][G][H][I][J][K][L]...
//
// 1バイトずつ読む場合:
//   read() → [A]     （ディスクアクセス）
//   read() → [B]     （ディスクアクセス）
//   ...
// 高コスト: 12回のディスクアクセス
//
// 12バイトまとめて読む場合:
//   read() → [A][B][C][D][E][F][G][H][I][J][K][L]（1回のディスクアクセス）
// 低コスト: 1回のディスクアクセス

4.2.3 ワーキングセット理論

Denningはまた「ワーキングセット」の概念を提唱しました（1968年）。これは「ある時間ウィンドウ内でプログラムが参照するメモリページの集合」です。

ワーキングセット W(t, Δ):
  時刻 t から過去 Δ 時間単位内に
  参照された全てのページの集合

例:
  参照列: 1, 2, 3, 2, 1, 4, 5, 4, 3, 2, 1
  Δ = 4 の時の W(11, 4) = {3, 2, 1, 4}（最後の4参照）

ワーキングセットがキャッシュサイズ以下なら
高いヒット率が期待できる

バッファサイズ選択への示唆：

/*
 * get_next_lineにおけるワーキングセット:
 *
 * 主要なデータ構造:
 *   - 読み取りバッファ: BUFFER_SIZE バイト
 *   - 残留バッファ: 可変（平均行長程度）
 *   - 戻り値の行: 可変（行長）
 *
 * ワーキングセットサイズ ≈ BUFFER_SIZE + 2 × 平均行長
 *
 * L1キャッシュ（32KB）に収まるには:
 *   BUFFER_SIZE + 2 × 平均行長 < 32KB
 *
 * 平均行長 = 80文字とすると:
 *   BUFFER_SIZE < 32KB - 160 ≈ 32KB
 *
 * → BUFFER_SIZE = 4096〜8192 が理想的
 */

4.2.4 キャッシュの動作原理

キャッシュはデータの一時保存領域であり、次のような動作をします：

キャッシュヒット:
  要求されたデータがキャッシュにある
  → 高速アクセス（数ナノ秒）

  CPU ──request──→ [Cache] ──HIT!──→ データ返却
                     ↓
                  データあり

キャッシュミス:
  要求されたデータがキャッシュにない
  → 低速なメモリ/ディスクからフェッチ

  CPU ──request──→ [Cache] ──MISS──→ [Memory] → データ
                     ↓                    ↓
                  データなし          キャッシュに格納

キャッシュヒット率とAmdalの法則

平均アクセス時間 = ヒット率 × ヒット時間 + ミス率 × ミス時間

例:
  ヒット率 = 95%
  ヒット時間 = 1ns（L1キャッシュ）
  ミス時間 = 100ns（メインメモリ）

  平均時間 = 0.95 × 1 + 0.05 × 100
           = 0.95 + 5.0
           = 5.95ns

  ヒット率 = 99%の場合:
  平均時間 = 0.99 × 1 + 0.01 × 100
           = 0.99 + 1.0
           = 1.99ns（約3倍高速）

4.3 ファイルシステムバッファとカーネルキャッシュ

4.3.1 ページキャッシュ（Page Cache）

UNIXシステムはファイルデータをページキャッシュに保持します。これはアプリケーションとディスクの間のバッファ層です。

アプリケーションからディスクまでの経路:

┌─────────────────────┐
│  アプリケーション     │  ← ユーザー空間
│  (get_next_line)    │
└─────────┬───────────┘
          │ read() システムコール
          ↓
┌─────────────────────┐
│  カーネル           │  ← カーネル空間
│  ├─ VFS             │
│  ├─ ページキャッシュ  │  ← ここでキャッシュ
│  └─ ファイルシステム │
└─────────┬───────────┘
          │
┌─────────┴───────────┐
│  ブロックデバイス層  │
│  (I/Oスケジューラ)   │
└─────────┬───────────┘
          │
┌─────────┴───────────┐
│  物理ディスク        │
│  (HDD / SSD)        │
└─────────────────────┘

ページキャッシュの効果：

# 最初の読み取り（コールドキャッシュ）
$ time dd if=largefile.txt of=/dev/null bs=4096
real    0m2.345s  # ディスクから読み取り

# 2回目の読み取り（ホットキャッシュ）
$ time dd if=largefile.txt of=/dev/null bs=4096
real    0m0.089s  # キャッシュから読み取り（26倍高速）

4.3.2 先読み（Read-Ahead）

カーネルは順次読み取りパターンを検出すると、要求される前にデータを先読みします。

先読みの動作:

アプリケーション:    read(0-4KB)
カーネルの動作:      ディスクから 0-64KB を読み込み
                    0-4KB を返却
                    4KB-64KB をキャッシュに保持

アプリケーション:    read(4KB-8KB)
カーネルの動作:      キャッシュから即座に返却
                    先読みウィンドウを拡大（128KBまで）

先読みサイズは動的に調整される:
  初期: 16KB
  順次アクセス検出: 32KB → 64KB → 128KB（最大）
  ランダムアクセス検出: 先読み無効化

4.3.3 ブロックサイズとアライメント

ファイルシステムはデータをブロック単位で管理します。ブロックサイズに合わせた読み取りが最も効率的です。

/*
 * 一般的なブロックサイズ:
 *
 * ファイルシステム    ブロックサイズ
 * ─────────────────   ──────────────
 * ext4               4096 バイト（デフォルト）
 * XFS                4096 バイト
 * APFS (macOS)       4096 バイト
 * NTFS               4096 バイト
 *
 * → BUFFER_SIZE = 4096 は理論的に最適
 */

// ブロック境界でないアクセスの問題
//
// BUFFER_SIZE = 1000 の場合:
//   read(0, 1000)    → ブロック0 全体を読み込み、1000バイト返却
//   read(1000, 1000) → ブロック0とブロック1両方読み込み（非効率）
//
// ブロック0: [0-4095]
//            ^^^^^^^^^^^  最初のread
//                    ^^^^^^^^^^ 2回目のread（ブロック跨ぎ）

// BUFFER_SIZE = 4096 の場合:
//   read(0, 4096)    → ブロック0 を読み込み
//   read(4096, 4096) → ブロック1 を読み込み（効率的）

4.3.4 ダブルバッファリングとトリプルバッファリング

歴史的に、I/O効率を最大化するためにダブルバッファリングが使用されてきました。

シングルバッファリング:
  [読込中...] → [処理中...] → [読込中...] → [処理中...]
  └─────────────────────────────────────────────────→ 時間
  I/Oと処理が交互（非効率）

ダブルバッファリング:
  バッファA: [読込] [    ] [読込] [    ]
  バッファB: [    ] [読込] [    ] [読込]
  処理:      [    ] [Aを処理][Bを処理][Aを処理]
  └─────────────────────────────────────────────────→ 時間
  I/Oと処理が並行（効率的）

// ダブルバッファリングの概念実装
typedef struct s_double_buffer {
    char *buffer[2];
    int current;      // 現在処理中のバッファ (0 or 1)
    size_t size[2];   // 各バッファのデータ量
} t_double_buffer;

void process_with_double_buffer(int fd) {
    t_double_buffer db;
    db.buffer[0] = malloc(BUFFER_SIZE);
    db.buffer[1] = malloc(BUFFER_SIZE);
    db.current = 0;

    // 最初のバッファを埋める
    db.size[0] = read(fd, db.buffer[0], BUFFER_SIZE);

    while (db.size[db.current] > 0) {
        int next = 1 - db.current;  // 0↔1 切り替え

        // 非同期で次のバッファに読み込み開始
        // (実際の実装ではスレッドやaioを使用)
        db.size[next] = read(fd, db.buffer[next], BUFFER_SIZE);

        // 現在のバッファを処理
        process_data(db.buffer[db.current], db.size[db.current]);

        db.current = next;
    }

    free(db.buffer[0]);
    free(db.buffer[1]);
}

4.4 システムコールオーバーヘッドの理論

4.4.1 ユーザー空間とカーネル空間

プロセスのアドレス空間は、ユーザー空間とカーネル空間に分離されています。この分離はセキュリティと安定性のためですが、コストがあります。

32ビットLinuxの典型的なメモリレイアウト:

0xFFFFFFFF ┌─────────────────┐
           │                 │
           │  カーネル空間    │  1GB（上位）
           │  (保護された領域)│
           │                 │
0xC0000000 ├─────────────────┤
           │                 │
           │                 │
           │  ユーザー空間    │  3GB（下位）
           │  (プロセス固有)  │
           │                 │
0x00000000 └─────────────────┘

4.4.2 コンテキストスイッチのコスト

システムコール（read()など）は、ユーザーモードからカーネルモードへの切り替えを伴います。

システムコールの実行フロー:

1. アプリケーションがread()を呼び出し
2. ライブラリがシステムコール番号を設定
3. ソフトウェア割り込み (int 0x80 または syscall命令)
4. カーネルモードに遷移
   - レジスタの保存
   - カーネルスタックに切り替え
   - 特権レベルの変更
5. システムコールハンドラを実行
6. ユーザーモードに復帰
   - レジスタの復元
   - ユーザースタックに切り替え
7. アプリケーションに制御を戻す

典型的なコスト: 1000〜10000 CPUサイクル

コンテキストスイッチのオーバーヘッド測定：

#include <sys/time.h>

void measure_syscall_overhead(void) {
    struct timeval start, end;
    int fd = open("/dev/null", O_WRONLY);
    char buf[1];
    int iterations = 1000000;

    gettimeofday(&start, NULL);

    for (int i = 0; i < iterations; i++) {
        write(fd, buf, 0);  // 0バイト書き込み（最小のシステムコール）
    }

    gettimeofday(&end, NULL);

    long microseconds = (end.tv_sec - start.tv_sec) * 1000000L +
                        (end.tv_usec - start.tv_usec);

    printf("Average syscall overhead: %.2f microseconds\n",
           (double)microseconds / iterations);
    // 典型的な結果: 0.1〜0.5 マイクロ秒

    close(fd);
}

4.4.3 バッチ処理による償却

多くのシステムコールを発行するコストは、バッチ処理によって償却できます。これは計算機科学における「償却分析」（Amortized Analysis）の応用です。

償却分析の考え方:

個別コスト:
  システムコール 1回 = 0.5μs
  1バイト読み取り = 0.5μs（1回のシステムコール）

1000バイトを読む総コスト:
  BUFFER_SIZE=1:    1000回 × 0.5μs = 500μs
  BUFFER_SIZE=1000: 1回 × 0.5μs = 0.5μs

償却コスト（1バイトあたり）:
  BUFFER_SIZE=1:    0.5μs/バイト
  BUFFER_SIZE=1000: 0.0005μs/バイト（1000倍効率的）

/*
 * 数学的表現:
 *
 * T(n) = n × C_syscall / BUFFER_SIZE + n × C_process
 *
 * ここで:
 *   n = 総読み取りバイト数
 *   C_syscall = システムコールのコスト
 *   C_process = 1バイトの処理コスト
 *
 * BUFFER_SIZEを大きくすると、第1項が小さくなる
 * ただし、メモリ使用量は増加する
 */

4.4.4 vDSOとシステムコール最適化

現代のLinuxでは、一部のシステムコール（gettimeofday等）はvDSO（virtual Dynamic Shared Object）を通じてカーネルモードへの遷移なしに実行できます。しかし、read()のようなI/Oシステムコールは常にカーネルモードが必要です。

// vDSOで高速化されるシステムコール:
//   gettimeofday()  - 時刻取得
//   clock_gettime() - 高精度時刻取得
//   getcpu()        - 実行CPU取得

// 常にカーネルモードが必要なシステムコール:
//   read()   - ファイル読み取り
//   write()  - ファイル書き込み
//   open()   - ファイルオープン
//   close()  - ファイルクローズ

4.5 I/Oスケジューリング理論

4.5.1 ディスクI/Oの特性

HDDには物理的な制約があり、I/O順序が性能に大きく影響します。

HDD構造:

       ┌─────────────────────┐
      ╱                       ╲
     │  プラッタ（円盤）        │
     │     ┌───────────┐       │
     │    ╱     ●       ╲      │  ● = スピンドル
     │   │   トラック    │     │
     │    ╲             ╱      │
     │     └───────────┘       │
     │         ↑               │
     │      ヘッド（読み書き）   │
      ╲                       ╱
       └─────────────────────┘

アクセス時間の構成:
  シーク時間: ヘッドを移動（3-15ms）
  回転待ち:  データがヘッドに来るまで待機（平均: 4.2ms @ 7200rpm）
  転送時間:  データ転送（100-200MB/s）

ランダム vs シーケンシャル:
  ランダム4KB読み取り:  ~10ms（100 IOPS）
  シーケンシャル読み取り: ~0.02ms/4KB（200MB/s = 50000 × 4KB/s）

  → シーケンシャルは500倍高速

4.5.2 古典的なディスクスケジューリングアルゴリズム

FCFS（First-Come, First-Served）

要求が到着した順序で処理。公平だが非効率。

要求列: 98, 183, 37, 122, 14, 124, 65, 67
初期ヘッド位置: 53

ヘッド移動:
53 → 98 → 183 → 37 → 122 → 14 → 124 → 65 → 67

総移動距離: 45 + 85 + 146 + 85 + 108 + 110 + 59 + 2 = 640 トラック

SSTF（Shortest Seek Time First）

最も近い要求を優先。効率的だが飢餓（starvation）の可能性。

要求列: 98, 183, 37, 122, 14, 124, 65, 67
初期ヘッド位置: 53

ヘッド移動（常に最も近い要求を選択）:
53 → 65 → 67 → 37 → 14 → 98 → 122 → 124 → 183

総移動距離: 12 + 2 + 30 + 23 + 84 + 24 + 2 + 59 = 236 トラック

SCAN（エレベータアルゴリズム）

一方向に移動しながら要求を処理し、端に達したら反転。

要求列: 98, 183, 37, 122, 14, 124, 65, 67
初期ヘッド位置: 53, 上方向に移動中

ヘッド移動:
53 → 65 → 67 → 98 → 122 → 124 → 183 → (199) → 37 → 14

総移動距離: 146 + 185 = 331 トラック
（飢餓なし、予測可能）

4.5.3 Linuxのスケジューラ

現代のLinuxは複数のI/Oスケジューラを提供しています。

# 利用可能なスケジューラを確認
$ cat /sys/block/sda/queue/scheduler
[mq-deadline] kyber bfq none

# 現在のスケジューラを変更
$ echo "bfq" > /sys/block/sda/queue/scheduler

主要なスケジューラ

CFQ (Complete Fair Queuing):
  - プロセスごとにキューを持つ
  - I/O帯域幅を公平に分配
  - レガシー（現在は非推奨）

Deadline:
  - 各要求にデッドラインを設定
  - 読み取り: 500ms, 書き込み: 5秒
  - 飢餓を防止

BFQ (Budget Fair Queuing):
  - CFQの改良版
  - 応答性とスループットのバランス
  - デスクトップ環境に最適

mq-deadline:
  - マルチキューデバイス用
  - NVMe SSD等に最適

none (noop):
  - スケジューリングなし
  - 高速SSDに最適

4.5.4 SSDの特性

SSDにはHDDのような物理的制約がなく、ランダムアクセスも高速です。しかし、別の考慮点があります。

SSD特性:

読み取り:
  ランダム4KB: ~0.1ms（10,000+ IOPS）
  シーケンシャル: 500MB/s〜7GB/s

書き込み:
  書き込み増幅: 1ページ書き込みに1ブロック消去が必要
  ウェアレベリング: 書き込みを分散して寿命延長
  TRIM: 未使用ブロックをSSDに通知

バッファリングへの示唆:
  - ランダム/シーケンシャルの差は小さい
  - しかし、システムコールオーバーヘッドは依然として存在
  - → バッファリングは依然として有効

4.6 文字列探索アルゴリズムの理論

4.6.1 単純パターンマッチングの計算量

get_next_lineでの改行文字探索は、最も単純なパターンマッチング問題です。

// 単純線形探索: O(n)
char *find_newline(const char *s) {
    while (*s) {
        if (*s == '\n')
            return (char *)s;
        s++;
    }
    return NULL;
}

計算量分析

入力サイズ: n（バッファ内の文字数）
比較回数:
  最良: 1（先頭が改行）
  最悪: n（改行なし、または末尾）
  平均: n/2（一様分布仮定）

時間計算量: O(n)
空間計算量: O(1)

4.6.2 より複雑なパターンマッチング（参考）

単一文字の検索には不要ですが、複数文字パターンのマッチングには効率的なアルゴリズムがあります。

Boyer-Mooreアルゴリズム（1977年）

テキストを後ろから前に比較し、不一致時に大きくスキップします。

パターン: "NEEDLE"
テキスト: "FINDING A NEEDLE IN A HAYSTACK"

比較: パターン末尾から

F I N D I N G   A   N E E D L E   I N ...
N E E D L E
          ↑ 'G' ≠ 'E', 'G'はパターンにない → 6文字スキップ

F I N D I N G   A   N E E D L E   I N ...
            N E E D L E
                    ↑ 'N'はパターンにある → 特定位置にスキップ
...

最良計算量: O(n/m) ← サブリニア！
最悪計算量: O(nm)

get_next_lineでの適用可能性

/*
 * 改行文字の検索では:
 *   パターン長 m = 1
 *   Boyer-Mooreの利点がない（スキップ幅最大1）
 *
 * → 単純線形探索が最適
 *
 * ただし、SIMD命令による並列比較は有効:
 *   16バイト同時比較 → 16倍高速化の可能性
 */

4.6.3 SIMD（Single Instruction Multiple Data）の理論

現代のCPUは、一つの命令で複数のデータを同時に処理できます。

スカラー処理:
  A[0] = B[0] + C[0]
  A[1] = B[1] + C[1]
  A[2] = B[2] + C[2]
  A[3] = B[3] + C[3]
  → 4命令

SIMD処理:
  A[0:3] = B[0:3] + C[0:3]
  → 1命令（4要素同時処理）

文字列検索への応用:
  16バイトの各バイトを同時に '\n' と比較
  → 16倍の並列性

// SSE2による改行検索（概念）
#include <emmintrin.h>

char *simd_find_newline(const char *s, size_t len) {
    __m128i newline = _mm_set1_epi8('\n');  // 16個の '\n'

    size_t i = 0;
    for (; i + 16 <= len; i += 16) {
        __m128i chunk = _mm_loadu_si128((__m128i *)(s + i));
        __m128i cmp = _mm_cmpeq_epi8(chunk, newline);
        int mask = _mm_movemask_epi8(cmp);

        if (mask != 0) {
            return (char *)(s + i + __builtin_ctz(mask));
        }
    }

    // 残りをスカラー処理
    for (; i < len; i++) {
        if (s[i] == '\n')
            return (char *)(s + i);
    }

    return NULL;
}

// 注: 42プロジェクトでは許可されていない可能性あり

4.6.4 文字列操作の計算量

get_next_lineで使用する主要な文字列操作の計算量：

操作                 時間計算量    空間計算量
─────────────────    ──────────    ──────────
strlen(s)            O(n)          O(1)
strchr(s, c)         O(n)          O(1)
strcpy(dst, src)     O(n)          O(1)
strcat(dst, src)     O(m + n)      O(1)  ※dstの長さm
strdup(s)            O(n)          O(n)
strjoin(s1, s2)      O(m + n)      O(m + n)

※ nは入力文字列の長さ

繰り返しstrjoinの問題

// 悪いパターン: O(n²)の時間計算量
char *result = strdup("");
for (int i = 0; i < k; i++) {
    char *old = result;
    result = ft_strjoin(result, pieces[i]);
    free(old);
    // 各反復で: O(1 + 2 + 3 + ... + k) = O(k²)
}

// 良いパターン: O(n)の時間計算量
// 1. 総長を先に計算
size_t total = 0;
for (int i = 0; i < k; i++)
    total += strlen(pieces[i]);

// 2. 一度だけ割り当て
char *result = malloc(total + 1);
char *p = result;
for (int i = 0; i < k; i++) {
    size_t len = strlen(pieces[i]);
    memcpy(p, pieces[i], len);
    p += len;
}
*p = '\0';

4.7 バッファサイズの理論的最適化

4.7.1 トレードオフの数学的モデル

バッファサイズ選択は、複数の要因のトレードオフです。

総コスト C(B) = システムコールコスト + メモリコスト + キャッシュミスコスト

ここで B = BUFFER_SIZE

システムコールコスト:
  C_syscall(B) = (ファイルサイズ / B) × オーバーヘッド

メモリコスト:
  C_memory(B) = B × メモリアクセス時間

キャッシュミスコスト:
  C_cache(B) =
    B ≤ L1サイズ の時: 0
    B > L1サイズ の時: (B - L1サイズ) × ミスペナルティ

/*
 * 数値例:
 *
 * ファイルサイズ F = 1MB = 1,048,576 バイト
 * システムコールオーバーヘッド S = 1μs
 * L1キャッシュサイズ L = 32KB
 * キャッシュミスペナルティ M = 100ns
 *
 * B = 1 の時:
 *   C_syscall = 1,048,576 × 1μs = 1048秒 ← 支配的
 *
 * B = 4096 の時:
 *   C_syscall = 256 × 1μs = 0.256ms
 *   C_cache = 0 (4096 < 32KB)
 *   → 最適に近い
 *
 * B = 1MB の時:
 *   C_syscall = 1 × 1μs = 1μs
 *   C_cache = (1MB - 32KB) × 100ns = 100ms ← キャッシュミスが支配的
 *
 * → 最適バッファサイズはL1キャッシュサイズ以下
 *   かつ、システムコール回数を十分に減らす値
 *   → 4KB〜32KB が理想的範囲
 */

4.7.2 ページサイズとの整合性

オペレーティングシステムのページサイズに合わせることで、メモリ管理が効率化されます。

#include <unistd.h>

void print_page_size(void) {
    long page_size = sysconf(_SC_PAGESIZE);
    printf("Page size: %ld bytes\n", page_size);
    // 通常: 4096 (4KB)
    // 一部システム: 8192, 16384, 65536
}

ページ境界に揃えたメモリ割り当て：

#include <stdlib.h>

void *aligned_alloc_buffer(size_t size, size_t alignment) {
    void *ptr;

    // C11のaligned_alloc（または posix_memalign）
    ptr = aligned_alloc(alignment, size);

    return ptr;
}

// 使用例
char *buffer = aligned_alloc_buffer(4096, 4096);
// bufferのアドレスは4096の倍数

4.7.3 実験的最適化

理論を実際のベンチマークで検証します。

#include <stdio.h>
#include <stdlib.h>
#include <fcntl.h>
#include <unistd.h>
#include <sys/time.h>

typedef struct s_benchmark_result {
    size_t buffer_size;
    double time_seconds;
    long syscall_count;
} t_benchmark_result;

t_benchmark_result run_benchmark(const char *filename, size_t buffer_size) {
    t_benchmark_result result;
    struct timeval start, end;
    int fd;
    char *buffer;
    ssize_t bytes_read;
    size_t total_bytes = 0;

    result.buffer_size = buffer_size;
    result.syscall_count = 0;

    buffer = malloc(buffer_size);
    if (!buffer) {
        result.time_seconds = -1;
        return result;
    }

    fd = open(filename, O_RDONLY);
    if (fd < 0) {
        free(buffer);
        result.time_seconds = -1;
        return result;
    }

    gettimeofday(&start, NULL);

    while ((bytes_read = read(fd, buffer, buffer_size)) > 0) {
        total_bytes += bytes_read;
        result.syscall_count++;
    }

    gettimeofday(&end, NULL);

    result.time_seconds = (end.tv_sec - start.tv_sec) +
                          (end.tv_usec - start.tv_usec) / 1000000.0;

    close(fd);
    free(buffer);

    return result;
}

void optimize_buffer_size(const char *filename) {
    size_t test_sizes[] = {1, 16, 64, 256, 1024, 4096, 8192,
                           16384, 32768, 65536, 131072};
    int num_tests = sizeof(test_sizes) / sizeof(test_sizes[0]);

    printf("Buffer Size  Time (s)   Syscalls   Throughput (MB/s)\n");
    printf("──────────────────────────────────────────────────────\n");

    for (int i = 0; i < num_tests; i++) {
        t_benchmark_result r = run_benchmark(filename, test_sizes[i]);

        if (r.time_seconds > 0) {
            // ファイルサイズを取得して計算
            double throughput = (r.syscall_count * test_sizes[i]) /
                               (r.time_seconds * 1024 * 1024);

            printf("%10zu  %8.4f  %10ld  %8.2f\n",
                   test_sizes[i], r.time_seconds,
                   r.syscall_count, throughput);
        }
    }
}

実際のベンチマーク結果例

10MBファイルでの測定結果:

Buffer Size  Time (s)   Syscalls   Throughput (MB/s)
──────────────────────────────────────────────────────
         1  2.5430    10485760        3.93
        16  0.2180      655360       45.87
        64  0.0620      163840      161.29
       256  0.0210       40960      476.19
      1024  0.0130       10240      769.23
      4096  0.0098        2560     1020.41  ← 急激な改善
      8192  0.0095        1280     1052.63  ← ほぼ飽和
     16384  0.0093         640     1075.27
     32768  0.0092         320     1086.96
     65536  0.0091         160     1098.90
    131072  0.0091          80     1098.90  ← 改善なし

→ 4096〜8192で性能が飽和
→ それ以上大きくしても改善は微小
→ BUFFER_SIZE = 4096 が最適な妥協点

4.8 get_next_lineへのバッファリング理論の適用

4.8.1 読み取りバッファと残留バッファ

get_next_lineでは2種類のバッファを使用します：

┌─────────────────────────────────────────────────────────────┐
│ ファイル: "Hello World\nTest Line\nGoodbye\n"               │
└─────────────────────────────────────────────────────────────┘
                    │
                    │ read(fd, buffer, BUFFER_SIZE)
                    ↓
┌─────────────────────────────────────────────────────────────┐
│ 読み取りバッファ（一時的）                                    │
│ "Hello World\nTest Li"  (BUFFER_SIZE = 20)                  │
└─────────────────────────────────────────────────────────────┘
                    │
                    │ 改行で分割
                    ↓
┌─────────────────────┐     ┌─────────────────────────────────┐
│ 返却される行         │     │ 残留バッファ（永続的・static）    │
│ "Hello World\n"     │     │ "Test Li"                       │
└─────────────────────┘     └─────────────────────────────────┘

4.8.2 効率的なバッファ設計

/*
 * バッファ設計の原則:
 *
 * 1. 読み取りバッファ: BUFFER_SIZEバイト
 *    - 目的: システムコール削減
 *    - サイズ: 4096推奨（ページサイズに整合）
 *    - 寿命: 読み取りごとに一時的
 *
 * 2. 残留バッファ: 可変長
 *    - 目的: 行の跨ぎを保持
 *    - サイズ: 動的（行長に依存）
 *    - 寿命: static（関数呼び出し間で保持）
 *
 * 3. 出力行: 可変長
 *    - 目的: 呼び出し元に返す完全な行
 *    - サイズ: 行長 + 1（ヌル終端）
 *    - 寿命: 呼び出し元が解放責任
 */

4.8.3 バッファ操作のコスト分析

char *get_next_line(int fd)
{
    static char *remainder = NULL;
    char *buffer;
    char *line;
    ssize_t bytes_read;

    // [コスト1] バッファ割り当て: O(1)
    buffer = malloc(BUFFER_SIZE + 1);
    if (!buffer)
        return NULL;

    // [コスト2] 改行探索: O(remainder長)
    while (!find_newline(remainder))
    {
        // [コスト3] システムコール: O(1) だが高い定数
        bytes_read = read(fd, buffer, BUFFER_SIZE);
        if (bytes_read <= 0)
            break;
        buffer[bytes_read] = '\0';

        // [コスト4] 文字列結合: O(remainder長 + bytes_read)
        remainder = join_and_free(remainder, buffer);
    }

    // [コスト5] 行抽出: O(行長)
    line = extract_line(&remainder);

    // [コスト6] バッファ解放: O(1)
    free(buffer);

    return line;
}

/*
 * 総コスト分析（1行読み取り）:
 *
 * n = 行長
 * k = read()呼び出し回数 ≈ n / BUFFER_SIZE
 *
 * T(n) = k × C_syscall + O(n) × 2 + O(n)
 *      = n/B × C_syscall + O(n)
 *      = O(n/B + n)
 *      = O(n) （ただしB大で定数係数が小さい）
 */

4.8.4 極端なバッファサイズへの対応

BUFFER_SIZE = 1 の場合

/*
 * BUFFER_SIZE = 1 の問題:
 *
 * 1. システムコール回数 = ファイルサイズ
 *    10MBファイル = 1000万回のシステムコール
 *
 * 2. 文字列結合回数 = 行長
 *    100文字の行 = 100回のft_strjoin
 *
 * 3. メモリ割り当て回数 = 行長
 *    100文字の行 = 100回のmalloc/free
 *
 * 対策:
 *   - スタック上にバッファを確保（小さいので可能）
 *   - 結合操作を最適化
 */

char *get_next_line_bufsize_1(int fd)
{
    static char *remainder = NULL;
    char buffer[2];  // スタック上に確保
    ssize_t bytes_read;

    while (!has_newline(remainder))
    {
        bytes_read = read(fd, buffer, 1);
        if (bytes_read <= 0)
            break;
        buffer[1] = '\0';

        // 1文字ずつ追加
        remainder = join_and_free(remainder, buffer);
    }

    return extract_line(&remainder);
}

BUFFER_SIZE = 10000000（10MB）の場合

/*
 * 大きなBUFFER_SIZEの問題:
 *
 * 1. スタックオーバーフロー危険
 *    char buffer[10000001];  // 絶対NG！
 *
 * 2. メモリ割り当て失敗の可能性
 *    malloc(10000000) は失敗しうる
 *
 * 3. キャッシュ効率の低下
 *    L1/L2/L3を超えるサイズ
 *
 * 対策:
 *   - 必ずヒープに割り当て
 *   - malloc失敗を適切に処理
 *   - 実際の利得は限定的（前述のベンチマーク参照）
 */

char *get_next_line_large_buffer(int fd)
{
    static char *remainder = NULL;
    char *buffer;
    ssize_t bytes_read;

    // 大きなバッファは必ずヒープに
    buffer = malloc(BUFFER_SIZE + 1);
    if (!buffer)
        return NULL;  // メモリ不足

    // ... 通常の処理 ...

    free(buffer);
    return line;
}

4.8.5 メモリリーク防止パターン

/*
 * get_next_lineでのメモリリークパターン:
 *
 * 1. 読み取りバッファの解放忘れ
 * 2. 結合時の古い文字列の解放忘れ
 * 3. エラー時の中間状態の解放忘れ
 * 4. remainderの最終クリーンアップ忘れ
 */

// 安全なパターン
char *safe_get_next_line(int fd)
{
    static char *remainder = NULL;
    char *buffer = NULL;
    char *temp = NULL;
    char *line = NULL;
    ssize_t bytes_read;

    // 早期リターン（リソースなし）
    if (fd < 0 || BUFFER_SIZE <= 0)
        return NULL;

    buffer = malloc(BUFFER_SIZE + 1);
    if (!buffer)
        goto error;

    while (!has_newline(remainder))
    {
        bytes_read = read(fd, buffer, BUFFER_SIZE);

        if (bytes_read < 0)
            goto error;

        if (bytes_read == 0)
            break;

        buffer[bytes_read] = '\0';

        temp = ft_strjoin(remainder, buffer);
        if (!temp)
            goto error;

        free(remainder);  // 古いremainderを解放
        remainder = temp;
        temp = NULL;
    }

    line = extract_line(&remainder);
    free(buffer);
    return line;

error:
    free(buffer);
    free(remainder);
    remainder = NULL;
    return NULL;
}

// 注: gotoは42のNormで禁止の可能性あり
// その場合は関数分割で対応

4.9 パフォーマンス測定と最適化

4.9.1 ベンチマークの方法論

正確なパフォーマンス測定には方法論が重要です。

/*
 * ベンチマークの原則:
 *
 * 1. ウォームアップ: 最初の実行は測定しない
 *    - JITコンパイル、キャッシュ投入など
 *
 * 2. 複数回実行: 統計的信頼性
 *    - 最低5回、できれば10回以上
 *    - 外れ値を除外
 *
 * 3. 環境制御:
 *    - 他のプロセスを停止
 *    - ページキャッシュをクリア（必要に応じて）
 *
 * 4. 適切な粒度:
 *    - 短すぎる測定は誤差が大きい
 *    - 最低1秒程度の実行時間
 */

typedef struct s_stats {
    double min;
    double max;
    double mean;
    double stddev;
} t_stats;

t_stats calculate_stats(double *values, int n) {
    t_stats stats;
    double sum = 0, sum_sq = 0;

    stats.min = values[0];
    stats.max = values[0];

    for (int i = 0; i < n; i++) {
        sum += values[i];
        sum_sq += values[i] * values[i];
        if (values[i] < stats.min) stats.min = values[i];
        if (values[i] > stats.max) stats.max = values[i];
    }

    stats.mean = sum / n;
    stats.stddev = sqrt((sum_sq / n) - (stats.mean * stats.mean));

    return stats;
}

void benchmark_get_next_line(const char *filename, int iterations) {
    double times[iterations];
    int fd;
    char *line;
    struct timeval start, end;

    // ウォームアップ
    fd = open(filename, O_RDONLY);
    while ((line = get_next_line(fd)) != NULL)
        free(line);
    close(fd);

    // 本測定
    for (int i = 0; i < iterations; i++) {
        fd = open(filename, O_RDONLY);

        gettimeofday(&start, NULL);
        while ((line = get_next_line(fd)) != NULL)
            free(line);
        gettimeofday(&end, NULL);

        times[i] = (end.tv_sec - start.tv_sec) +
                   (end.tv_usec - start.tv_usec) / 1000000.0;

        close(fd);

        // ページキャッシュをクリア（オプション）
        // system("sync; echo 3 > /proc/sys/vm/drop_caches");
    }

    t_stats stats = calculate_stats(times, iterations);
    printf("Mean: %.4f s, StdDev: %.4f s, Min: %.4f s, Max: %.4f s\n",
           stats.mean, stats.stddev, stats.min, stats.max);
}

4.9.2 Valgrindによるメモリ分析

# 基本的なリークチェック
valgrind --leak-check=full ./your_program

# 詳細なヒープ分析
valgrind --tool=massif ./your_program
ms_print massif.out.*

# キャッシュシミュレーション
valgrind --tool=cachegrind ./your_program
cg_annotate cachegrind.out.*

出力例の解釈：

==12345== HEAP SUMMARY:
==12345==     in use at exit: 0 bytes in 0 blocks
==12345==   total heap usage: 1,234 allocs, 1,234 frees, 56,789 bytes allocated
==12345==
==12345== All heap blocks were freed -- no leaks are possible

良い結果:
- "in use at exit: 0 bytes" → リークなし
- "allocs == frees" → 全て解放済み

悪い結果:
==12345==     in use at exit: 40 bytes in 1 blocks
==12345== LEAK SUMMARY:
==12345==    definitely lost: 40 bytes in 1 blocks
→ リークあり！

4.9.3 最適化テクニック集

// 1. memcpyの活用
// 遅い:
for (size_t i = 0; i < len; i++)
    dst[i] = src[i];

// 速い:
memcpy(dst, src, len);
// memcpyはSIMD最適化されている

// 2. 文字列長のキャッシュ
// 遅い:
result = malloc(strlen(s1) + strlen(s2) + 1);
memcpy(result, s1, strlen(s1));  // s1を2回走査

// 速い:
size_t len1 = strlen(s1);
size_t len2 = strlen(s2);
result = malloc(len1 + len2 + 1);
memcpy(result, s1, len1);        // 長さをキャッシュ

// 3. 分岐予測の助け
// ヒント: 最も可能性の高いケースを最初に
if (likely(bytes_read > 0)) {
    // 通常の処理
} else if (bytes_read == 0) {
    // EOF
} else {
    // エラー
}

// 4. 不変式のループ外移動
// 遅い:
while (*s) {
    if (strlen(pattern) > 0)  // 毎回計算
        // ...
}

// 速い:
size_t pattern_len = strlen(pattern);  // ループ外
while (*s) {
    if (pattern_len > 0)
        // ...
}

4.10 まとめ: バッファリングの統一理論

4.10.1 本章で学んだ計算機科学の概念

1. 生産者-消費者問題（Dijkstra, 1965）
   → バッファリングの理論的基盤
   → リングバッファの設計

2. メモリ階層（Wilkes, 1967）
   → キャッシュの経済学
   → 速度-容量-コストのトレードオフ

3. 参照の局所性（Denning, 1966）
   → 時間的局所性
   → 空間的局所性
   → ワーキングセット理論

4. システムコールオーバーヘッド
   → コンテキストスイッチのコスト
   → バッチ処理による償却

5. I/Oスケジューリング
   → FCFS, SSTF, SCAN
   → 現代のBFQ, mq-deadline

6. 文字列アルゴリズム
   → 線形探索の計算量
   → SIMD並列化の可能性

4.10.2 get_next_lineへの適用

┌─────────────────────────────────────────────────────────────┐
│ バッファサイズ選択の結論                                      │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│ 推奨: BUFFER_SIZE = 4096                                    │
│                                                             │
│ 理由:                                                       │
│ 1. OSページサイズ（4KB）と整合                               │
│ 2. L1キャッシュ（32KB）に余裕を持って収まる                   │
│ 3. システムコール回数を1000分の1以下に削減                   │
│ 4. ベンチマークで性能飽和点                                  │
│ 5. メモリ使用量は現代では無視可能                            │
│                                                             │
│ 許容範囲: 1024〜32768（特殊な要件がある場合）                │
│                                                             │
└─────────────────────────────────────────────────────────────┘

4.10.3 次章への橋渡し

本章ではバッファリングの理論と最適化について学びました。次章では、これらの知識を統合し、get_next_lineの完全な実装を行います。

関数の構造設計
ヘルパー関数の実装
エッジケースの処理
テスト駆動開発

バッファリングの理論を理解することで、なぜ特定の実装選択が優れているのかを論理的に説明できるようになりました。これはソフトウェアエンジニアとして重要な能力です。