Kompajler

Kompajler (prevodilac, programski prevodilac, eng. compiler) jest računarski program koji čita program napisan u izvornom jeziku, te ga prevodi u ciljani (najčešće mašinski) jezik.

Softver pisan za prve računare je dugo vremena pisan u asemblerskom jeziku (niži simbolički jezik namijenjen programiranju računara i prilagođen arhitekturi centralnog procesora, razlikovati od asemblera – asembler je pomoćni program koji prevodi asemblerski jezik u mašinski jezik datog računara). Viši programski jezici su stvoreni tek kada je korist od mogućnosti upotrebe softvera na više vrsta procesora postala veća od troškova pisanja kompajlera. Ograničene memorijske mogućnosti prvih računara su bile tehnička prepreka kod primjene kompajlera.

U svojim začecima, izgled kompajlera ovisio je od kompleksnosti procesiranja, iskustva autora i raspoloživih resursa. Kompajler koji piše jedan autor za neki relativno jednostavan jezik je jedan, monolitan, komad softvera. Složeniji jezici i zahtjevi za kvalitetom rezultiraju kompajlerima dizajniranim u nekoliko donekle samostalnih faza. Za svaku od faza može biti zadužen po jedan autor, odnosno, posao podijeljen između više saradnika. Rad po fazama omogućava kasniju lakšu zamjenu poboljšanim verzijama ili umetanje novih (optimizacija).

Formalna se definicija kompajlera zasniva na odnos između tri jezika: izvorni jezik, ciljni jezik i jezik izgradnje, te se kompajler prikazuje na slijedeći način:

MJ_{L_{g}}^{L_{i}\to L_{c}}

gdje je MJ kompajler $L_{i}$ je izvorni jezik, $L_{c}$ je ciljni jezik, te $L_{g}$ je jezik izgradnje.

Primjer:

Programski kod - Java

Mašinski jezik

public class Ggt {
 /*
  */
 private static int ggt(int zahl1, int zahl2) {
   while (zahl1 != zahl2) {
     if (zahl1 < zahl2) {
       zahl2 = zahl2 - zahl1;
     } else {
       zahl2 = zahl1 - zahl2;
     }
   }
   return zahl1;
 }

 /*
  */
 public static void main(String[] args) {
   /*
    */
   int ersteZahl = Integer.parseInt(args[0]);
   int zweiteZahl = Integer.parseInt(args[1]);
   
   int ergebnis = ggt(ersteZahl, zweiteZahl);
   
   System.out.println("Der ggT von "  + ersteZahl + 
       " und " + zweiteZahl + " ist: " + ergebnis);
 }
}

Kompajler →

•••

0010 0100  1011 0111

1000 1110  1100 1011

0101 1001  0010 0001

0111 0010  0011 1101

0001 0000  1001 0100
 
1000 1001  1011 1110

0001 0011  0101 1001

0111 0010  0011 1101

0001 0000  1001 0000
 
1000 1001  1011 1111

1001 1101  1001 1110

0111 0010  0011 1101

0001 0000  1001 0000

0111 0010  0011 1101

0001 0011  1001 1100
 
•••

Obično je kompajler i sam program, te je stoga i jezik izgradnje programski jezik kojim je ostvaren sam kompajler.

Osim tri spomenuta jezika, razvijaju se i posebni metajezici (jezici definiranja jezika) koji omogućuju jednostavan zapis pravila programskih jezika.

Dvije su osnovne faze rada kompajlera:

faza analize izvornog programa
faza sinteze ciljnog programa

Tokom faze analize izvornog programa izvode se dva procesa prevođenja, jedan tokom leksičke analize, drugi tokom sintaksne analize i semantičke analize.

Leksička analiza grupira znakove izvornog programa u osnovne elemente jezika, koje se zovu leksičke jedinke (engl. token) ili leksemi. Leksemi su npr. varijable, ključne riječi, konstante, operatori i pravopisni znakovi. Leksička se jedinka formalno zadaje kao niz znakova. Leksička pravila određuju skup svih pravilno napisanih leksičkih jedinki (nizova) zadanog programskog jezika.

Dozvoljava se da je skup pravilno napisanih leksičkih jedinki beskonačan i u formalnom smislu taj skup definira jezik leksičkih jedinki. Formalni automat je osnovica leksičkog analizatora. Tokom leksičke analize, svaki se leksem zamijeni jedinstvenim znakom.

Leksički analizator također gradi strukturu podataka zvanu tablica znakova (ili tablica simbola) u koju se spremaju svi ostali podaci važni za varijable i konstante.

Tokom sintaksne analize izvodi se proces prihvaćanja nizova jedinstvenih znakova leksičkih jedinki, a tokom semantičke analize izvodi se proces generiranja višeg međukoda. Formalni automat je okosnica i sintaksnog analizatora.

Semantički analizator pokreće proces generiranja višeg međukoda. Semantička pravila su interpretacijska pravila koja povezuju izvođenje programa s ponašanjem računala. Semantika jezika određuje skup dozvoljenih značenja.

Tokom procesa generiranja višeg međukoda obično se izračunavaju konstantne vrijednosti i pojednostavi se struktura naredbe. Uobičajeno je da naredbe višeg međukoda sadrže kazaljke usmjerene na mjesta u tablici znakova.

Tokom faze sinteze ciljnog programa izvode se tri procesa prevođenja: prevođenje višeg međukoda u srednji međukod, prevođenje srednjeg međukoda u niži međukod i prevođenje nižeg međukoda u ciljni program.

Tokom procesa prevođenja višeg međukoda u srednji međukod obavlja se pretvaranje složenih struktura podataka, kao što su nizovi podataka, i složenih kontrolnih programskih konstrukcija u niz naredbi koje koriste isključivo varijable i jednostavne naredbe grananja.

Naredbe nižeg međukoda koriste simboličke registre r1 do r8.