Context Navigation

Changes between Version 7 and Version 8 of HowTo/CTutorial

Timestamp:: Sep 5, 2010, 1:45:44 PM (15 years ago)
Author:: 村山俊之
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

HowTo/CTutorial

-              v7
+              v8
 プログラム・ソースを読み込みながら逐次実行するインタプリタ言語 (BASIC など) と比べると、コンパイラ言語はその特徴として、文法的に完結していることがわかりやすいルールになっている、ということが上げられます。 C 言語の場合、関数などの処理の単位はブレース "{" ～ "}" で括られた'''ブロック'''として表現されます。開きブレースと閉じブレースの数が合わなければ、当然文法エラーと見なされ、コンパイルを行う時点でエラーとしてはじかれます。
+また、 C 言語は変数や関数の宣言や定義にうるさい言語でもあります。定義されていない名前の関数を呼び出そうとしたり、宣言されていない変数を使用しようとするようなプログラムも、やはりコンパイル時にエラーになります。これらの性質は、多くのスクリプト言語が、定義されていない関数の呼び出しは実行時にエラーになったり、宣言されていない変数への代入は許されていたりするのとは対照的です。
+=== 型の扱い ===
+C 言語そのものには、文字列を扱う型が存在しません。基本的に、整数値と実数値しか扱えません。
+しかし、文字列を扱う方法は存在します。 C 言語は配列をサポートしているので、整数値の羅列を配列に納め、それを文字列として扱うことが可能です。
+初歩のサンプルプログラムとしてよく用いられる Hello World プログラムを以下に示します。このプログラムは、単に画面に "Hello World!" と表示するだけのものです。
+{{{
+#include <stdio.h>
+int main()
+{
+    printf("Hello World!\n");
+    return 0;
+}
+}}}
+文字列リテラルがあるので、「文字列扱えるじゃないか! 嘘をつくな!!」とお怒りかも知れませんが、このプログラムは以下のように書き換えることも可能です[[FootNote("ターミナルが ASCII 文字セット (をサブセットにする文字セットすべて) で動作している必要はありますが、そうでない端末を探す方が難しいでしょう…。")]]。
+{{{
+#include <stdio.h>
+int main()
+{
+    char text[] = { 72, 101, 108, 108, 111, 32, 87, 111, 114, 108, 100, 33, 10, 0 };
+    printf(text);
+    return 0;
+}
+}}}
+配列 text は単なる数値の羅列の筈なのに、関数 printf() に渡すとそれが文字列として表示される。これは、コンピュータにおける文字列データが本質的には文字に割り当てられた番号 (文字コード) の羅列に過ぎないことを表しています。
+"char" というのは整数を表す型の一種で、文字コードを扱うのに最適な精度の整数を扱うものです。上記のサンプルのように、行頭に型名を書き、その後ろに変数名を書くことで、使用する変数を'''宣言'''します。 C 言語では、変数はどこかであらかじめ宣言しなければ使うことができません。また、宣言する際に変数の型を決定する必要があり、一度宣言した変数の型を変更することはできません。上記のサンプルの場合、 text は char 型の配列として宣言されたので、 char 型の配列以外の種類のデータを持つことはできないのです。
+なお、 C 言語は配列の他に、データ構造を表現する'''構造体'''や'''共用体'''、名前付きの列挙値を表現する'''列挙型'''、変数や関数が存在するアドレス値を扱う'''ポインタ'''をサポートしています。
+=== アセンブリ言語との関係 ===
+C 言語のことを、アセンブリ言語の (割と単純な) ラッパーマクロであるという人もいます。実際の所、 C 言語のプログラム中に、アセンブリ言語のプログラムを埋め込むことができる処理系もあります。例えばコンパイラに GCC を使用する場合、以下のように !__asm__ キーワードを用いたインライン構文により、アセンブリ言語のプログラムを埋め込むことができます。
+{{{
+#include <stdio.h>
+int main()
+{
+    int a = 10;
+    int b;
+    __asm__(
+        "movl %1, %%eax\n\t"
+        "addl $100, %%eax\n\t"
+        "movl %%eax, %0"
+        :"=r"(a)
+        :"r"(a)
+        :"%eax"
+    );
+    b = a * 20;
+    printf("b = %d\n", b);
+    return 0;
+}
+}}}
+このプログラムを実行すると、以下のように表示されます。 b の値は 200 ではなく、 2200 になっています。
+{{{
+b = 2200
+}}}
+何故そうなるかというと、埋め込んだアセンブリ言語のプログラム中で、変数 a に 100 を加算しているからです。
+逆に、このプログラムをアセンブリ言語に変換すると、以下のようになります[[FootNote("アセンブリ言語プログラムの生成に利用した環境は、一般的な Intel CPU を搭載した Windows XP パソコンと、 MinGW 版 GCC 4.5.0 です。 gcc -O2 -S hoge.c として生成しています。")]]。
+{{{
+        .file   "hoge.c"
+        .def    ___main;        .scl    2;      .type   32;     .endef
+        .section .rdata,"dr"
+LC0:
+        .ascii "b = %d\12\0"
+        .text
+        .p2align 2,,3
+.globl _main
+        .def    _main;  .scl    2;      .type   32;     .endef
+_main:
+        pushl   %ebp
+        movl    %esp, %ebp
+        andl    $-16, %esp
+        subl    $16, %esp
+        call    ___main
+        movl    $10, %edx
+/APP
+ # 8 "hoge.c" 1
+        movl %edx, %eax
+        addl $100, %eax
+        movl %eax, %edx
+ # 0 "" 2
+/NO_APP
+        leal    (%edx,%edx,4), %eax
+        sall    $2, %eax
+        movl    %eax, 4(%esp)
+        movl    $LC0, (%esp)
+        call    _printf
+        xorl    %eax, %eax
+        leave
+        ret
+        .def    _printf;        .scl    2;      .type   32;     .endef
+}}}
+"/APP" と書かれた行から "/NO_APP" と書かれた行までの間の部分が、インライン構文によって埋め込んだアセンブリ言語の部分で、その前後が C 言語で書かれたプログラムをアセンブリ言語に変換したものです。特に、 C 言語のプログラムにおける以下の計算式
+{{{
+    b = a * 20;
+}}}
+が、アセンブリ言語では以下のような記述に変換されていますが、
+{{{
+        leal    (%edx,%edx,4), %eax
+        sall    $2, %eax
+}}}
+これは、変数 a の値に、変数 a の値を 4回足したもの (従って、 a の 5倍の値に相当) を用意し、その値をビットシフト演算によって左に 2bits 移動する、という内容です。左方向へのビットシフト演算は 1bit 移動する毎に整数値は 2倍になりますので、結果として a の 5倍の 4倍、即ち 20倍の値を得ることができる、というわけです。
+このアセンブリ言語を生成した環境である 80x86 系の CPU には、整数の掛け算を行うマシン語の命令 imull というのも存在するので、この部分のアセンブリ言語プログラムは以下のようにも書き表せるはずなのですが、
+{{{
+        movl    %edx, %eax
+        imull   $20, %eax
+}}}
+観念的に分かりやすいのは C 言語の中だけでよく、変換されたマシン語においては、分かりやすい表現よりも動作効率や実行ファイルサイズの小ささの方が重要になります。 GCC は imull 命令を用いるより leal 命令と sall 命令を用いた方が動作が速くなると判断し、そのようなアセンブリ言語プログラムを生成したのでした。