Künstliche Intelligenz - Was steckt hinter der Technologie der Zukunft?

Künstliche Intelligenz - Was steckt hinter der Technologie der Zukunft?

von: Gerhard Paaß, Dirk Hecker

Springer Vieweg, 2021

ISBN: 9783658302115

Sprache: Deutsch

511 Seiten, Download: 42229 KB

 
Format:  PDF, auch als Online-Lesen

geeignet für: Apple iPad, Android Tablet PC's Online-Lesen PC, MAC, Laptop


 

eBook anfordern

Mehr zum Inhalt

Künstliche Intelligenz - Was steckt hinter der Technologie der Zukunft?



  Grußwort von Minister Prof. Dr. Andreas Pinkwart 5  
  Vorwort 7  
     Über dieses Buch 7  
     Danksagung 8  
  Inhaltsverzeichnis 10  
  Über die Autoren 19  
  1: Was ist intelligent an Künstlicher Intelligenz? 21  
     1.1 Menschliche Intelligenz hat viele Dimensionen 21  
     1.2 Woran erkennt man Künstliche Intelligenz 22  
     1.3 Computer lernen 23  
     1.4 Tiefe neuronale Netze können Objekte erkennen 26  
     1.5 Wie kann man Künstliche Intelligenz verstehen? 28  
     1.6 Die Geschichte der Künstlichen Intelligenz 30  
     1.7 Zusammenfassung 32  
     Literatur 33  
  2: Was kann Künstliche Intelligenz? 35  
     2.1 Objekterkennung in Bildern 35  
        2.1.1 Medizinische Diagnose 37  
        2.1.2 Vorhersage der 3D-Struktur von Proteinen 38  
     2.2 Spracherkennung 39  
     2.3 Maschinelle Übersetzung 40  
     2.4 Die Beantwortung natürlichsprachiger Fragen 42  
     2.5 Dialoge und persönliche Assistenten 45  
     2.6 Brettspiele 47  
        2.6.1 Das Strategiespiel Go 48  
        2.6.2 Künstliche Intelligenz gewinnt gegen fünf Poker-Professionals 49  
     2.7 Videospiele 49  
        2.7.1 Atari 2600 Spielekonsole 50  
        2.7.2 Capture the Flag 50  
        2.7.3 Das Echtzeit-Strategiespiel Dota2 52  
     2.8 Selbstfahrende Autos 53  
        2.8.1 Weiterentwicklung der selbstfahrenden Autos 54  
     2.9 Der Computer als kreatives Medium 55  
        2.9.1 Neue Bilder komponieren 56  
        2.9.2 Geschichten erfinden 58  
     2.10 Allgemeine Künstliche Intelligenz 59  
     2.11 Zusammenfassung 60  
     Literatur 60  
  3: Einige Grundbegriffe des maschinellen Lernens 64  
     3.1 Die wichtigsten Arten des maschinellen Lernens 64  
        3.1.1 Überwachtes Lernen 64  
        3.1.2 Unüberwachtes Lernen 65  
        3.1.3 Bestärkungslernen 66  
     3.2 Programmieren und Lernen 67  
        3.2.1 Modelle transformieren eine Eingabe in eine Ausgabe 67  
        3.2.2 Algorithmen arbeiten schrittweise eine Liste von Anweisungen ab 69  
        3.2.3 Ein Lernproblem: Die Erkennung von Ziffern 69  
        3.2.4 Vektoren, Matrizen und Tensoren 70  
     3.3 Lernen eines Zusammenhangs 72  
        3.3.1 Schema für das Lernen: Modell, Verlustfunktion und Optimierung 72  
        3.3.2 Detaillierter Ablauf des Lernens 72  
     3.4 Ein simples Modell: Die logistische Regression 75  
        3.4.1 Berechnung eines Punktwertes 75  
        3.4.2 Die gleichzeitige Berechnung aller Punktwerte 77  
        3.4.3 Lineare Transformation 78  
        3.4.4 Die Softmaxfunktion erzeugt einen Wahrscheinlichkeitsvektor 79  
        3.4.5 Das logistische Regressionsmodell 80  
     3.5 Die Güte des Modells 81  
        3.5.1 Maßstab für die Modellgüte: Die Wahrscheinlichkeit der kompletten Trainingsdaten 81  
        3.5.2 Wie misst man den Lernerfolg: Die Verlustfunktion 82  
        3.5.3 Verdeutlichung für zwei Klassen und zwei Eingabemerkmale 84  
     3.6 Optimierung, oder wie findet man die besten Parameterwerte 85  
        3.6.1 Der Gradient zeigt in Richtung des steilsten Anstiegs 86  
        3.6.2 Der Gradient für mehrere Dimensionen 86  
        3.6.3 Der Gradient der Verlustfunktion 88  
        3.6.4 Schrittweise Minimierung durch Gradientenabstieg 90  
        3.6.5 Die Lernrate bestimmt die Länge eines Optimierungschritts 91  
        3.6.6 Gradientenabstieg mit Minibatch benötigt viel weniger Rechenaufwand 91  
     3.7 Überprüfung des Lernerfolges 93  
        3.7.1 Anwendung des Modells auf neue Daten 93  
        3.7.2 Überprüfung der Genauigkeit auf der Testmenge 94  
        3.7.3 Präzision und Recall für Klassen unterschiedlichen Umfangs 95  
     3.8 Zusammenfassung 96  
     Literatur 97  
  4: Tiefes Lernen kann komplexe Zusammenhänge erfassen 98  
     4.1 Beim XOR-Problem gibt es Interaktionen zwischen den Merkmalen 98  
     4.2 Nichtlinearitäten erzeugen gebogene Trennflächen 101  
     4.3 Tiefe neuronale Netze sind Stapel von nichtlinearen Schichten 106  
        4.3.1 Vektoren und Tensoren repräsentieren die umgeformten Inhalte 107  
     4.4 Training von TNN mit Backpropagation-Verfahren 109  
     4.5 Toolkits erleichtern die Formulierung und das Training von TNN 112  
        4.5.1 Parallele Berechnungen beschleunigen das Training von TNN 112  
        4.5.2 Toolkits erleichtern die Arbeit mit TNN 113  
     4.6 Wie mache ich das Netz besser? 115  
        4.6.1 Iterative Konstruktion eines guten Modells mit der Validationsmenge 115  
        4.6.2 Unteranpassung und Überanpassung führen zu höheren Fehlern 116  
        4.6.3 Ein Beispiel für Überanpassung 117  
        4.6.4 Regularisierungsverfahren reduzieren den Generalisierungsfehler 119  
           Bestrafung großer Parameterwerte reduziert abrupte Ausgabeänderungen 119  
           Dropout legt Teile des Netzes lahm 120  
           Batch-Normalisierung vermeidet zu kleine und große Werte von verdeckten Vektoren 121  
           Mathematischer Beweis: Der stochastische Gradientenabstieg findet gut generalisierende TNN 122  
     4.7 Unterschiedliche Anwendungen erfordern Netze unterschiedlichen Aufbaus 122  
        4.7.1 Mehrschichtiges Feedforward-Netz 123  
        4.7.2 Convolutional Neural Network (CNN) 124  
        4.7.3 Rekurrentes neuronales Netz (RNN) 124  
        4.7.4 Bestärkungslernen-Netz 124  
        4.7.5 Generatives adversariales Netz (GAN) 125  
        4.7.6 Autoencoder-Netze erzeugen eine komprimierte Darstellung 125  
        4.7.7 Architekturen für bestimmte Medien und Anwendungsbereiche 125  
     4.8 Die Konstruktion eines tiefen neuronalen Netzes ist ein Suchprozess 127  
        4.8.1 Auswahl der Anzahl der Parameter und der Hyperparameter 127  
        4.8.2 Der Standard-Prozess der Modellsuche führt zu besseren Modellen 128  
        4.8.3 Automatische Suche von Modellarchitekturen und Hyperparametern 130  
     4.9 Biologische neuronale Netze funktionieren anders 133  
     4.10 Zusammenfassung und Trends 135  
     Literatur 136  
  5: Bilderkennung mit tiefen neuronalen Netzen 138  
     5.1 Was bedeutet eigentlich Bilderkennung? 138  
        5.1.1 Arten der Objekterkennung in Bildern 138  
        5.1.2 Inspirationen aus der Biologie 139  
        5.1.3 Warum ist eine Bilderkennung schwierig? 142  
     5.2 Die Bestandteile eines Convolutional Neural Networks 142  
        5.2.1 Der Kernel einer Convolution-Schicht analysiert kleine Bildbereiche 142  
        5.2.2 Convolution-Schicht mit vielen Kerneln reagiert auf viele Merkmale 145  
        5.2.3 Die Pooling-Schicht wählt die wichtigsten Merkmale aus 146  
     5.3 Ein einfaches Convolutional Neural Network für die Ziffernerkennung 147  
     5.4 Der ImageNet Wettbewerb befeuert die Methodenentwicklung 149  
     5.5 Fortschrittliche Convolutional Neural Networks 151  
        5.5.1 AlexNet nutzt erfolgreich GPUs zum Training 151  
        5.5.2 ResNet erleichtert die Optimierung durch Umgehungspfade 152  
           ResNet benötigt eine enorme Rechenpower 153  
        5.5.3 DenseNet verwendet zusätzliche Umgehungspfade 155  
        5.5.4 ResNeXt nutzt transformierte Bilder zum Training 156  
     5.6 Analyse der CNN Ergebnisse 157  
        5.6.1 Einzelne Kernel reagieren auf Merkmale unterschiedlicher Art und Größe 157  
        5.6.2 Ähnlichen Bildern entsprechen benachbarte verdeckte Vektoren 158  
     5.7 Transferlernen reduziert den Bedarf an Trainingsdaten 159  
     5.8 Lokalisierung eines Objektes im Bild 162  
        5.8.1 Objektlokalisierung durch Rechtecke 162  
        5.8.2 Bildsegmentierung zur pixelgenaue Bestimmung von Klassen 164  
        5.8.3 Max-Unpooling belegt ein vergrößertes Feld mit Werten 165  
        5.8.4 Das U-Net erkennt zunächst Objekte und findet dann die zugehörigen Pixel 166  
     5.9 Die 3D-Rekonstruktion einer Szene 168  
     5.10 Gesichter können mit sehr hoher Genauigkeit zugeordnet werden 169  
     5.11 Abschätzung der Genauigkeit von Modellprognosen 171  
        5.11.1 Unsicherheit der Modellprognosen 172  
        5.11.2 Der Bootstrap erzeugt eine Menge plausibler Modelle 174  
        5.11.3 Bayessche neuronale Netze 174  
     5.12 Zuverlässigkeit der Bilderkennung 176  
        5.12.1 Der Einfluss von Bildverzerrungen 176  
        5.12.2 Gezielte Konstruktion von falschklassifizierten Bildern 179  
     5.13 Zusammenfassung und Trends 182  
     Literatur 183  
  6: Erfassung der Bedeutung von geschriebenem Text 186  
     6.1 Wie kann man die Bedeutung von Wörtern durch Vektoren darstellen? 189  
        6.1.1 Das Konzept der Embeddingvektoren 191  
        6.1.2 Berechnung von Embeddingvektoren mit Word2vec 192  
        6.1.3 Die Approximation der Softmaxfunktion reduziert den Rechenaufwand 194  
     6.2 Eigenschaften der Embedding-Vektoren 195  
        6.2.1 Nächste Nachbarn von Embeddings haben ähnliche Bedeutungen 195  
        6.2.2 Differenzen zwischen Embeddings lassen sich als Relationen interpretieren 197  
        6.2.3 FastText nutzt n-Gramme von Buchstaben 199  
        6.2.4 StarSpace erzeugen Embeddings für andere Objekte 201  
     6.3 Rekurrente neuronale Netze zur Erfassung von Sequenzen 202  
        6.3.1 Rekurrente neuronale Netze als Sprachmodelle 203  
        6.3.2 Training der rekurrenten neuronalen Netze 205  
        6.3.3 Die Eigenschaften der Gradienten beim RNN 206  
     6.4 Das Long-Short Term Memory (LSTM) ist ein Langzeitspeicher 208  
        6.4.1 Gatter steuern die Speichervorgänge 208  
        6.4.2 LSTMs mit mehreren Schichten 211  
        6.4.3 Anwendungen des LSTM 212  
        6.4.4 Bidirektionale LSTM-Netze zur Prognose von Worteigenschaften 214  
        6.4.5 Visualisierung von rekurrenten neuronalen Netzen 216  
     6.5 Übersetzung: Transformation einer Sequenz in eine andere Sequenz 217  
        6.5.1 Sequence-to-Sequence Netze zur Übersetzung 218  
           Erzeugen und Bewertung einer Übersetzung 219  
        6.5.2 Attention: Verbesserung der Übersetzung durch Rückgriff auf die Eingabeworte 222  
        6.5.3 Übersetzungsergebnisse mit Attention 224  
     6.6 Transformer-Übersetzungsmodelle 227  
        6.6.1 Selbstattention analysiert die Abhängigkeiten der Worte eines Satzes 228  
        6.6.2 Kreuzattention analysiert die Abhängigkeiten zwischen Ein- und Ausgabe 229  
        6.6.3 Transformer-Architektur nutzt Selbst- und Kreuzattention 231  
        6.6.4 Training des Transformers für die Sprachübersetzung 233  
        6.6.5 Byte-Pair Kodierung zur Reduktion des Vokabulars und zur Repräsentation unbekannter Wörter 235  
        6.6.6 Ergebnisse für das Transformer-modell 235  
        6.6.7 Simultane Übersetzung erfordert Wartezeiten 238  
     6.7 BERT: Sprachmodelle für die Repräsentation von Bedeutungen 240  
        6.7.1 BERT-Architektur 240  
        6.7.2 BERT-Prognoseaufgaben zum unüberwachten Vortraining 241  
     6.8 Transferlernen mit umfangreichen BERT-Modellen der Sprache 243  
        6.8.1 Semantische Klassifikationsaufgaben 243  
        6.8.2 Die Beantwortung von Fragen 245  
        6.8.3 Extraktion von Weltwissen 247  
        6.8.4 Transferlernen für Übersetzungsmodelle 250  
        6.8.5 Anwendung von BERT in der Web-Suche 252  
     6.9 Die Beschreibung von Bildern durch Text 253  
     6.10 Die Erklärung der Prognosen von TNN 256  
        6.10.1 Erklärungen sind notwendig 256  
        6.10.2 Globale Erklärungsmodelle 257  
        6.10.3 Lokale Erklärungsmodelle 258  
     6.11 Zuverlässigkeit der Texterkennung 260  
        6.11.1 Robustheit bei Textfehlern und Änderung der Domäne 260  
        6.11.2 Anfälligkeit für böswillige Änderung von Eingaben 261  
     6.12 Zusammenfassung und Trends 262  
     Literatur 264  
  7: Gesprochene Sprache verstehen 268  
     7.1 Spracherkennung 268  
        7.1.1 Warum ist Spracherkennung schwierig? 268  
        7.1.2 Wie kann man Sprachsignale im Computer darstellen? 269  
        7.1.3 Messung der Genauigkeit der Spracherkennung 272  
           Die Wortfehlerrate WER 272  
           Bekannte Testdatensätze zur Spracherkennung 272  
        7.1.4 Die Geschichte der Spracherkennung 273  
     7.2 Tiefe Sequence-to-Sequence-Modelle 274  
        7.2.1 Listen-Attend-Spell erzeugt eine Folge von Buchstaben 275  
        7.2.2 Sequence-To-Sequence Modell für Worte und Silben 278  
     7.3 Convolutional Neural Network zur Spracherkennung 278  
        7.3.1 CNN Modelle 279  
        7.3.2 Kombinierte Modelle 282  
           ResNet und BiLSTM 282  
           Vergrößerung der Trainingsdaten 283  
     7.4 Lippenlesen 283  
     7.5 Erzeugung von gesprochener Sprache aus Text 284  
        7.5.1 WaveNet mit gedehnten Convolution-Schichten für lange Abhängigkeiten 285  
        7.5.2 Das Tacotron erzeugt ein Spektrogramm 287  
     7.6 Dialoge und Sprachassistenten 289  
     7.7 Gunrock: Ein erweiterter Alexa-Sprachassistent 291  
        7.7.1 Sprachverstehen 292  
        7.7.2 Dialogmanagement 293  
        7.7.3 Antworterzeugung 294  
        7.7.4 Erprobung des Sprachassistenten 294  
     7.8 Analyse der Inhalte von Videos 295  
        7.8.1 Aufgaben der Videoinhaltsanalyse 296  
        7.8.2 Trainingsdaten zur Klassifikation von Videos nach Aktivitäten 296  
        7.8.3 Convolution-Schichten zur Erkennung von Videoinhalten 297  
        7.8.4 Genauigkeit der Videoklassifikation 300  
        7.8.5 Die Erzeugung von Untertiteln für Videos 301  
     7.9 Zuverlässigkeit der Verarbeitung gesprochener Sprache 304  
        7.9.1 Der Effekt von Rauschen und anderen Verzerrungen auf die Spracherkennung 305  
        7.9.2 Adversariale Attacken auf die automatische Spracherkennung 305  
     7.10 Zusammenfassung 306  
     Literatur 308  
  8: Lernen von optimalen Strategien 311  
     8.1 Einige Grundbegriffe 313  
     8.2 Tiefes Q-Netz 316  
        8.2.1 Strategie zur Maximierung der Summe der Belohnungen 316  
        8.2.2 Eine kleine Navigationsaufgabe 316  
        8.2.3 Diskontierter zukünftiger Gewinn belohnt schnelle Lösungen 317  
        8.2.4 Die Q-Funktion bewertet Zustands-Aktionspaare 317  
        8.2.5 Die Bellmangleichung stellt eine Beziehung zwischen Q-Werten her 318  
        8.2.6 Approximation der Q-Funktion durch ein tiefes neuronales Netz 319  
        8.2.7 Q-Lernen: Training eines tiefen Q-Netzes 319  
           Erzeugung einer Episode mit dem tiefen Q-Netz 319  
           Optimierung mit der erzeugten Episode 320  
           Praktische Tricks: Auswahl der Trainingsbeispiele und Verlustfunktionsberechnung 321  
           Exploration 322  
     8.3 Anwendung von Q-Lernen auf Atari Videospiele 323  
        8.3.1 Definition des Spielzustands bei Atari-Spielen 323  
        8.3.2 Architektur des Atari-Netzes 324  
        8.3.3 Training 324  
        8.3.4 Auswertung der tiefen neuronalen Netze der Atari-Videospiele 325  
     8.4 Strategiegradienten zum Erlernen von stochastischen Strategien 327  
        8.4.1 Notwendigkeit von Strategien mit Zufallselementen 327  
        8.4.2 Direkte Optimierung einer Strategie durch Strategiegradienten 328  
        8.4.3 Erweiterungen des Strategiegradienten: Actor-Critic und Proximal Policy Optimization 330  
        8.4.4 Anwendung auf Robotik und Go 332  
        8.4.5 Anwendung in Dota2 334  
     8.5 Selbstfahrende Autos 335  
        8.5.1 Sensoren selbstfahrender Autos 336  
        8.5.2 Funktionalität eines Agenten fürs autonome Fahren 337  
        8.5.3 Feintuning durch Simulation 340  
     8.6 Zuverlässigkeit des Bestärkungslernens 343  
        8.6.1 Training in Simulationsumgebungen oft schwierig übertragbar 343  
        8.6.2 Adversariale Attacken auf Modelle zum Bestärkungslernen 344  
     8.7 Zusammenfassung und Trends 345  
     Literatur 346  
  9: Kreative Künstliche Intelligenz und Emotionen 349  
     9.1 Bilder erzeugen mit generativen adversarialen Netzen (GAN) 349  
        9.1.1 Fälscher und Kunstexperte 349  
        9.1.2 Generator und Diskriminator 350  
        9.1.3 Optimierungskriterium für Generator und Diskriminator 350  
        9.1.4 Die Ergebnisse generativer adversarialer Netze 351  
        9.1.5 Interpolation zwischen Bildern 355  
        9.1.6 Transformation von Bildern 356  
        9.1.7 Transformation von Bildern ohne Trainingspaare 357  
        9.1.8 Creative Adversarial Network 360  
        9.1.9 Erzeugung von Bildern aus Text 363  
        9.1.10 GAN-generierte Modelle von Personen in drei Dimensionen 364  
     9.2 Texte verfassen 365  
        9.2.1 Automatischer Reporter: Daten in Zeitungsmeldungen darstellen 365  
        9.2.2 Generierung von längeren Geschichten 365  
        9.2.3 GPT2 erfindet komplexe Geschichten 366  
           Prognosefähigkeit von GPT-2 369  
           Visualisierung der Modellprognosen 370  
           Weiterentwicklungen von GPT-2 371  
     9.3 Musik automatisch komponieren 373  
        9.3.1 MuseNet komponiert Mischungen von Klassik und Pop 374  
        9.3.2 Der Music Transformer erfindet Klavierstücke 376  
     9.4 Emotionen und Persönlichkeit 377  
        9.4.1 Ein XiaoIce Dialog 377  
        9.4.2 Das Ziel: Personen zum Weiterreden animieren 379  
        9.4.3 Architektur von XiaoIce 380  
        9.4.4 Anzahl der Benutzerantworten als Optimierungskriterium 382  
        9.4.5 Emotionale Empathie und Unterstützung 384  
     9.5 Zusammenfassung und Trends 387  
     Literatur 390  
  10: KI und ihre Chancen, Herausforderungen und Risiken 393  
     10.1 Chancen für Wirtschaft und Gesellschaft 396  
        10.1.1 Smart Home, mein Haus kümmert sich um mich 396  
           Was ist der Vorteil für den Nutzer? 397  
        10.1.2 Diagnose, Therapie, Pflege und Verwaltung in der Medizin 398  
           KI in Früherkennung und Diagnose 399  
           KI in der Therapie 401  
           KI in der Pflege 401  
           KI in der Krankenhausverwaltung 403  
        10.1.3 Maschine Learning in der industriellen Anwendung 404  
        10.1.4 Weitere Einsatzgebiete der KI 407  
     10.2 Wirtschaftliche Auswirkungen und Zusammenhänge 412  
        10.2.1 Die Monetarisierung von Daten 412  
        10.2.2 Die neue digitale Servicewelt – KI as a service 416  
        10.2.3 Große Unternehmen als Treiber der KI 419  
           Der KI-Konzern Google 420  
           Die chinesische Konkurrenz 420  
           Chance für Europa 422  
        10.2.4 Die Auswirkungen auf den Arbeitsmarkt 422  
           Bildung für eine digitale Welt 424  
           Das Berufsbild des Data Scientists 425  
     10.3 Gesellschaftliche Herausforderungen 428  
        10.3.1 Herausforderungen der KI in der Medizin 430  
        10.3.2 1984 2.0: KI als Instrument der Überwachung 431  
        10.3.3 Krieg der Maschinen 434  
        10.3.4 Starke Künstliche Intelligenz 436  
     10.4 Methodische Herausforderungen 438  
        10.4.1 Kombination von Daten und unscharfem Schließen 439  
        10.4.2 Schnelles und Langsames Denken 440  
     10.5 Vertrauen schaffen in die KI 444  
        10.5.1 Wie baut man vertrauenswürdige KI-Systeme? 447  
        10.5.2 Wie kann man tiefe neuronale Netze testen? 448  
        10.5.3 Ist eine selbstbestimmte, effektive Nutzung eines KI-Systems möglich? 449  
        10.5.4 Behandelt das KI-System alle Betroffenen fair? 451  
        10.5.5 Sind Funktionsweise und Entscheidungen der KI nachvollziehbar? 452  
        10.5.6 Ist das KI-System sicher gegenüber Angriffen, Unfällen und Fehlern? 453  
        10.5.7 Funktioniert die KI-Komponente zuverlässig und ist sie robust? 454  
        10.5.8 Schützt die KI die Privatsphäre und sonstige sensible Informationen? 455  
        10.5.9 Die Herausforderungen für ein KI-Gütesiegel 456  
     10.6 Zusammenfassung 457  
     Literatur 459  
  A Anhang 463  
  A.1 Glossar 464  
  A.2 Verzeichnis der Abbildungen und deren Quellen 483  
  A.3 Literatur zum Anhang 498  
  A.4 Stichwortverzeichnis 504  

Kategorien

Service

Info/Kontakt