Hyperkommunikation: Neuronales Netzwerk

Zur Geschichte des
Neuronalen Netzwerkes [ zurück ] [ Stichworte ] [ Die Hyper-Bibliothek ] [ Systemtheorie ] [ Meine Bücher ] [ Meine Blogs ]

Ich unterscheide das naturwüchsige neuronale Netz, das aus Nerven besteht, und das hergestellte Netzwerk, das aus bionischen Analogiegründen als neuronales Netzwerk bezeichnet wird. Hier geht es um die Geschichte der Maschinen, die ich als Netz-Werke bezeichne.
Die bionische (V)erklärung, die Artefakte als der Natur nachempfunden deutet, hat dazu geführt, dass der Ausdruck "neuronal" sowohl im Zusammengang mit Nerven als auch im Zusammenhang mit bestimmten technischen Netzwerken verwendet wird. Die Kybernetik hat mit nicht reflektierten Abstraktionen zu "Maschine und Tier" viel zum sprachlichen Wirrwar beigetragen, das in den Neurowissenschaften seinen Ausdruck findet.

Die Wikipedia beispielsweise schreibt "künstliche neuronale Netzwerke", wie wenn es auch andere geben würde.

  Naturwissenschaft:
  - Neurologie
  - Neurophysiologie
  Verhaltenswissenschaften:
  - Neurowissenschaft
  - neuronales Netz
  Technik:
  - neuronales Netzwerk

  - Netzwerk

Am Anfang der Entwicklung von Regelungsmechanismen, die im 2. Weltkrieg als - noch nicht so benannte -Kybernetik stark gefördert wurde, gab es neben den Computern mit der Von-Neumann-Architektur auch Entwürfe, die sich am biologischen Nervensystem, das als neuronales Netz aufgefasst wurde, orientierten und deshalb als neuronale Netzwerke bezeichnet wurden. 1943 veröffentlichen W. McCulloch und W. Pitts einen logischen Kalkulus über das Nervensystem (logical calculus of the ideas immanent in nervous activity), mit welchem sie zeigten, dass Verknüpfungen von elementaren Einheiten - dem McCulloch-Pitts-Neuron - als eine der Vernetzung von Neuronen ähnliche Art von Netz, sich praktisch jede logische oder arithmetische Funktion berechnen lässt. Damit wurde sie die Gründungsväter der Neuroinformatik. W. McCulloch forschte an der Yale University über funktionale Verbindungen im Neocortex von Affen und am MIT mit H. Maturana, W. Pitts und J. Lettvin über die Physiologie der Nervenschaltkreise im Rückenmark und am visuellen Kortex des Frosches. Er zeigte, dass das Neuron die wesentliche logische Einheit in unserem Gehirn darstellt.

Aufgrund des Alles-oder-Nein-Charakters nervöser Aktivität können neuronale Ereignisse und die Beziehungen zwischen ihnen mittels Satzlogik behandelt werden. Das Verhalten jeden Netzes kann mit diesen Begriffen beschrieben werden, mit der Hinzufügung komplizierterer logischer Mittel für Netze, die Kreise enthalten; und dass man für jeden logischen Ausdruck, der bestimmte Bedingungen erfüllt, ein Netz finden kann, das sich in der beschriebenen Weise verhält.
Es zeigt sich, dass viele bestimmte Entscheidungen unter möglichen neurophysiologischen Annahmen äquivalent sind, d.h. für jedes Netz, das sich nach einer Annahme verhält, gibt es ein anderes Netz, das sich nach der anderen verhält und zu den gleichen Ergebnissen führt, wenn auch vielleicht nicht zur gleichen Zeit. Es wurden verschiedene Anwendungen des Kalküls besprochen. 1947 weisen sie darauf hin, dass ein solches Netz beispielsweise zur räumlichen Mustererkennung eingesetzt werden kann.

1949 formuliert D. Hebb seine Hebbsche Lernregel. K. Lashley postulierte 1950, dass die Informationsspeicherung im Gehirn verteilt wird, was auch ein relevanter Unterschied zu Neumannrechnern darstellt.

1951 beschrieb M. Minsky den Bau des Neurocomputers Snarc, der seine Gewichte automatisch justieren kann, jedoch nicht praktisch einsetzbar ist.

1956 treffen sich Wissenschaftler und Studenten auf der Dartmouth Conference. Diese Konferenz gilt als Geburtsstunde der Künstlichen Intelligenz als akademisches Fachgebiet.

Von 1957 bis 1958 entwickeln Frank Rosenblatt und Charles Wightman den ersten erfolgreichen Neurocomputer, mit dem Namen Mark I Perceptron. Der Computer konnte mit seinem 20 × 20 Pixel großen Bildsensor bereits einfache Ziffern erkennen. Im nachfolgenden Jahr formuliert Rosenblatt das Perceptron-Konvergenz-Theorem. 1960 stellen Bernard Widrow und Marcian E. Hoff das ADALINE (ADAptive LInear NEuron) vor. Dieses Netz erreichte als erstes weite kommerzielle Verbreitung. Anwendung fand es in Analogtelefonen zur Echtzeit-Echofilterung. Das neuronale Netz lernte mit der Deltaregel.

1961 stellte Karl Steinbuch Techniken der assoziativen Speicherung vor. 1969 gaben Marvin Minsky und Seymour Papert eine genaue mathematische Analyse des Perceptrons. Sie zeigten auf, dass wichtige Probleme nicht gelöst werden können. So sind unter anderem XOR-Operatoren nicht auflösbar und es gibt Probleme in der linearen Separierbarkeit. Die Folge war ein vorläufiges Ende der Forschungen auf dem Gebiet der neuronalen Netze, da die meisten Forschungsgelder gestrichen wurden.

Langsamer Wiederaufbau

1972 präsentiert Teuvo Kohonen den linearen Assoziator, ein Modell des Assoziativspeichers. James A. Anderson beschreibt das Modell unabhängig von Kohonen aus neuropsychologischer Sicht im selben Jahr.[9] 1973 benutzt Christoph von der Malsburg ein Neuronenmodell, das nichtlinear ist. Bereits 1974 entwickelt Paul Werbos für seine Dissertation die Backpropagation bzw. die Fehlerrückführung. Das Modell bekam aber erst später eine größere Bedeutung. Ab 1976 entwickelt Stephen Grossberg mathematisch fundierte Modelle neuronaler Netze. Zusammen mit Gail Carpenter widmet er sich auch dem Problem, ein neuronales Netz lernfähig zu halten, ohne bereits Gelerntes zu zerstören. Sie formulieren ein Architekturkonzept für neuronale Netze, die Adaptive Resonanztheorie. 1982 beschreibt Teuvo Kohonen die nach ihm benannten selbstorganisierenden Karten. Im selben Jahr beschreibt John Hopfield das Modell der Hopfield-Netze. 1983 wird von Kunihiko Fukushima, S. Miyake und T. Ito das neuronale Modell Neocognitron vorgestellt. Das Modell ist eine Weiterentwicklung des 1975 entwickelten Cognitrons und dient zur Erkennung handgeschriebener Zeichen.

Renaissance

1985 veröffentlicht John Hopfield eine Lösung des Travelling Salesman Problems durch ein Hopfield-Netz. 1985 wird das Lernverfahren Backpropagation of Error als Verallgemeinerung der Delta-Regel durch die Parallel-Distributed-Processing-Gruppe separat entwickelt. Somit werden nicht linear separierbare Probleme durch mehrschichtige Perceptrons lösbar. Minskys Abschätzung war also widerlegt.

Neue Erfolge in Mustererkennungswettbewerben seit 2009

In jüngster Zeit erlebten neuronale Netze eine Wiedergeburt, da sie bei herausfordernden Anwendungen oft bessere Ergebnisse als konkurrierende Lernverfahren liefern. Zwischen 2009 und 2012 gewannen die rekurrenten bzw. tiefen vorwärtsgerichteten neuronalen Netze der Forschungsgruppe von Jürgen Schmidhuber am Schweizer KI Labor IDSIA eine Serie von acht internationalen Wettbewerben in den Bereichen Mustererkennung und maschinelles Lernen.[10] Insbesondere gewannen ihre rekurrenten LSTM-Netze[11][12] drei Wettbewerbe zur verbundenen Handschrifterkennung bei der 2009 Intl. Conf. on Document Analysis and Recognition (ICDAR) ohne eingebautes A-priori-Wissen über die drei verschiedenen zu lernenden Sprachen. Die LSTM-Netze erlernten gleichzeitige Segmentierung und Erkennung. Dies waren die ersten internationalen Wettbewerbe, die durch Deep Learning[13][14] oder durch rekurrente Netze gewonnen wurden.

Tiefe vorwärtsgerichtete Netze wie Kunihiko Fukushimas Konvolutionsnetz der 80er Jahre[15] sind heute wieder wichtig. Sie verfügen über alternierende Konvolutionslagen (convolutional layers) und Lagen von Neuronen, die mehrere Aktivierungen zusammenfassen (pooling layers[16]), um die räumliche Dimension zu reduzieren. Abgeschlossen wird ein solches Konvolutionsnetz in der Regel durch mehrere vollständig verbundene Schichten (englisch fully connected layers). Yann LeCuns Team von der New York University wandte den 1989 schon gut bekannten Backpropagation-Algorithmus auf solche Netze an.[17] Moderne Varianten verwenden sogenanntes max-pooling für die Zusammenfassung der Aktivierungen, das stets der stärksten Aktivierung den Vorzug gibt.[18] Schnelle GPU-Implementierungen dieser Kombination wurden 2011 durch Dan Ciresan und Kollegen in Schmidhubers Gruppe eingeführt.[19] Sie gewannen seither zahlreiche Wettbewerbe, u. a. die „ISBI 2012 Segmentation of Neuronal Structures in Electron Microscopy Stacks Challenge“[20] und den „ICPR 2012 Contest on Mitosis Detection in Breast Cancer Histological Images“.[21] Derartige Modelle erzielten auch die bisher besten Ergebnisse auf dem ImageNet Benchmark.[22][23] GPU-basierte max-pooling-Konvolutionsnetze waren auch die ersten künstlichen Mustererkenner mit übermenschlicher Performanz[24] in Wettbewerben wie der „IJCNN 2011 Traffic Sign Recognition Competition“.[25] In den letzten Jahren fand auch die Theorie der Zufallsmatrizen vermehrt Anwendung in der Erforschung von neuronalen Netzen.

wp

[ wp ]