Künstliche Intelligenz - Was steckt hinter der Technologie der Zukunft?

von: Gerhard Paaß, Dirk Hecker

Springer Vieweg, 2021

ISBN: 9783658302115

Sprache: Deutsch

511 Seiten, Download: 42229 KB

Format: PDF, auch als Online-Lesen

geeignet für:

eBook anfordern

▸

Mehr zum Inhalt

Künstliche Intelligenz - Was steckt hinter der Technologie der Zukunft?

Kapitelübersicht
Kurzinformation
Inhaltsverzeichnis
Leseprobe
Blick ins Buch
Fragen zu eBooks?

	Grußwort von Minister Prof. Dr. Andreas Pinkwart	5
	Vorwort	7
	Über dieses Buch	7
	Danksagung	8
	Inhaltsverzeichnis	10
	Über die Autoren	19
	1: Was ist intelligent an Künstlicher Intelligenz?	21
	1.1 Menschliche Intelligenz hat viele Dimensionen	21
	1.2 Woran erkennt man Künstliche Intelligenz	22
	1.3 Computer lernen	23
	1.4 Tiefe neuronale Netze können Objekte erkennen	26
	1.5 Wie kann man Künstliche Intelligenz verstehen?	28
	1.6 Die Geschichte der Künstlichen Intelligenz	30
	1.7 Zusammenfassung	32
	Literatur	33
	2: Was kann Künstliche Intelligenz?	35
	2.1 Objekterkennung in Bildern	35
	2.1.1 Medizinische Diagnose	37
	2.1.2 Vorhersage der 3D-Struktur von Proteinen	38
	2.2 Spracherkennung	39
	2.3 Maschinelle Übersetzung	40
	2.4 Die Beantwortung natürlichsprachiger Fragen	42
	2.5 Dialoge und persönliche Assistenten	45
	2.6 Brettspiele	47
	2.6.1 Das Strategiespiel Go	48
	2.6.2 Künstliche Intelligenz gewinnt gegen fünf Poker-Professionals	49
	2.7 Videospiele	49
	2.7.1 Atari 2600 Spielekonsole	50
	2.7.2 Capture the Flag	50
	2.7.3 Das Echtzeit-Strategiespiel Dota2	52
	2.8 Selbstfahrende Autos	53
	2.8.1 Weiterentwicklung der selbstfahrenden Autos	54
	2.9 Der Computer als kreatives Medium	55
	2.9.1 Neue Bilder komponieren	56
	2.9.2 Geschichten erfinden	58
	2.10 Allgemeine Künstliche Intelligenz	59
	2.11 Zusammenfassung	60
	Literatur	60
	3: Einige Grundbegriffe des maschinellen Lernens	64
	3.1 Die wichtigsten Arten des maschinellen Lernens	64
	3.1.1 Überwachtes Lernen	64
	3.1.2 Unüberwachtes Lernen	65
	3.1.3 Bestärkungslernen	66
	3.2 Programmieren und Lernen	67
	3.2.1 Modelle transformieren eine Eingabe in eine Ausgabe	67
	3.2.2 Algorithmen arbeiten schrittweise eine Liste von Anweisungen ab	69
	3.2.3 Ein Lernproblem: Die Erkennung von Ziffern	69
	3.2.4 Vektoren, Matrizen und Tensoren	70
	3.3 Lernen eines Zusammenhangs	72
	3.3.1 Schema für das Lernen: Modell, Verlustfunktion und Optimierung	72
	3.3.2 Detaillierter Ablauf des Lernens	72
	3.4 Ein simples Modell: Die logistische Regression	75
	3.4.1 Berechnung eines Punktwertes	75
	3.4.2 Die gleichzeitige Berechnung aller Punktwerte	77
	3.4.3 Lineare Transformation	78
	3.4.4 Die Softmaxfunktion erzeugt einen Wahrscheinlichkeitsvektor	79
	3.4.5 Das logistische Regressionsmodell	80
	3.5 Die Güte des Modells	81
	3.5.1 Maßstab für die Modellgüte: Die Wahrscheinlichkeit der kompletten Trainingsdaten	81
	3.5.2 Wie misst man den Lernerfolg: Die Verlustfunktion	82
	3.5.3 Verdeutlichung für zwei Klassen und zwei Eingabemerkmale	84
	3.6 Optimierung, oder wie findet man die besten Parameterwerte	85
	3.6.1 Der Gradient zeigt in Richtung des steilsten Anstiegs	86
	3.6.2 Der Gradient für mehrere Dimensionen	86
	3.6.3 Der Gradient der Verlustfunktion	88
	3.6.4 Schrittweise Minimierung durch Gradientenabstieg	90
	3.6.5 Die Lernrate bestimmt die Länge eines Optimierungschritts	91
	3.6.6 Gradientenabstieg mit Minibatch benötigt viel weniger Rechenaufwand	91
	3.7 Überprüfung des Lernerfolges	93
	3.7.1 Anwendung des Modells auf neue Daten	93
	3.7.2 Überprüfung der Genauigkeit auf der Testmenge	94
	3.7.3 Präzision und Recall für Klassen unterschiedlichen Umfangs	95
	3.8 Zusammenfassung	96
	Literatur	97
	4: Tiefes Lernen kann komplexe Zusammenhänge erfassen	98
	4.1 Beim XOR-Problem gibt es Interaktionen zwischen den Merkmalen	98
	4.2 Nichtlinearitäten erzeugen gebogene Trennflächen	101
	4.3 Tiefe neuronale Netze sind Stapel von nichtlinearen Schichten	106
	4.3.1 Vektoren und Tensoren repräsentieren die umgeformten Inhalte	107
	4.4 Training von TNN mit Backpropagation-Verfahren	109
	4.5 Toolkits erleichtern die Formulierung und das Training von TNN	112
	4.5.1 Parallele Berechnungen beschleunigen das Training von TNN	112
	4.5.2 Toolkits erleichtern die Arbeit mit TNN	113
	4.6 Wie mache ich das Netz besser?	115
	4.6.1 Iterative Konstruktion eines guten Modells mit der Validationsmenge	115
	4.6.2 Unteranpassung und Überanpassung führen zu höheren Fehlern	116
	4.6.3 Ein Beispiel für Überanpassung	117
	4.6.4 Regularisierungsverfahren reduzieren den Generalisierungsfehler	119
	Bestrafung großer Parameterwerte reduziert abrupte Ausgabeänderungen	119
	Dropout legt Teile des Netzes lahm	120
	Batch-Normalisierung vermeidet zu kleine und große Werte von verdeckten Vektoren	121
	Mathematischer Beweis: Der stochastische Gradientenabstieg findet gut generalisierende TNN	122
	4.7 Unterschiedliche Anwendungen erfordern Netze unterschiedlichen Aufbaus	122
	4.7.1 Mehrschichtiges Feedforward-Netz	123
	4.7.2 Convolutional Neural Network (CNN)	124
	4.7.3 Rekurrentes neuronales Netz (RNN)	124
	4.7.4 Bestärkungslernen-Netz	124
	4.7.5 Generatives adversariales Netz (GAN)	125
	4.7.6 Autoencoder-Netze erzeugen eine komprimierte Darstellung	125
	4.7.7 Architekturen für bestimmte Medien und Anwendungsbereiche	125
	4.8 Die Konstruktion eines tiefen neuronalen Netzes ist ein Suchprozess	127
	4.8.1 Auswahl der Anzahl der Parameter und der Hyperparameter	127
	4.8.2 Der Standard-Prozess der Modellsuche führt zu besseren Modellen	128
	4.8.3 Automatische Suche von Modellarchitekturen und Hyperparametern	130
	4.9 Biologische neuronale Netze funktionieren anders	133
	4.10 Zusammenfassung und Trends	135
	Literatur	136
	5: Bilderkennung mit tiefen neuronalen Netzen	138
	5.1 Was bedeutet eigentlich Bilderkennung?	138
	5.1.1 Arten der Objekterkennung in Bildern	138
	5.1.2 Inspirationen aus der Biologie	139
	5.1.3 Warum ist eine Bilderkennung schwierig?	142
	5.2 Die Bestandteile eines Convolutional Neural Networks	142
	5.2.1 Der Kernel einer Convolution-Schicht analysiert kleine Bildbereiche	142
	5.2.2 Convolution-Schicht mit vielen Kerneln reagiert auf viele Merkmale	145
	5.2.3 Die Pooling-Schicht wählt die wichtigsten Merkmale aus	146
	5.3 Ein einfaches Convolutional Neural Network für die Ziffernerkennung	147
	5.4 Der ImageNet Wettbewerb befeuert die Methodenentwicklung	149
	5.5 Fortschrittliche Convolutional Neural Networks	151
	5.5.1 AlexNet nutzt erfolgreich GPUs zum Training	151
	5.5.2 ResNet erleichtert die Optimierung durch Umgehungspfade	152
	ResNet benötigt eine enorme Rechenpower	153
	5.5.3 DenseNet verwendet zusätzliche Umgehungspfade	155
	5.5.4 ResNeXt nutzt transformierte Bilder zum Training	156
	5.6 Analyse der CNN Ergebnisse	157
	5.6.1 Einzelne Kernel reagieren auf Merkmale unterschiedlicher Art und Größe	157
	5.6.2 Ähnlichen Bildern entsprechen benachbarte verdeckte Vektoren	158
	5.7 Transferlernen reduziert den Bedarf an Trainingsdaten	159
	5.8 Lokalisierung eines Objektes im Bild	162
	5.8.1 Objektlokalisierung durch Rechtecke	162
	5.8.2 Bildsegmentierung zur pixelgenaue Bestimmung von Klassen	164
	5.8.3 Max-Unpooling belegt ein vergrößertes Feld mit Werten	165
	5.8.4 Das U-Net erkennt zunächst Objekte und findet dann die zugehörigen Pixel	166
	5.9 Die 3D-Rekonstruktion einer Szene	168
	5.10 Gesichter können mit sehr hoher Genauigkeit zugeordnet werden	169
	5.11 Abschätzung der Genauigkeit von Modellprognosen	171
	5.11.1 Unsicherheit der Modellprognosen	172
	5.11.2 Der Bootstrap erzeugt eine Menge plausibler Modelle	174
	5.11.3 Bayessche neuronale Netze	174
	5.12 Zuverlässigkeit der Bilderkennung	176
	5.12.1 Der Einfluss von Bildverzerrungen	176
	5.12.2 Gezielte Konstruktion von falschklassifizierten Bildern	179
	5.13 Zusammenfassung und Trends	182
	Literatur	183
	6: Erfassung der Bedeutung von geschriebenem Text	186
	6.1 Wie kann man die Bedeutung von Wörtern durch Vektoren darstellen?	189
	6.1.1 Das Konzept der Embeddingvektoren	191
	6.1.2 Berechnung von Embeddingvektoren mit Word2vec	192
	6.1.3 Die Approximation der Softmaxfunktion reduziert den Rechenaufwand	194
	6.2 Eigenschaften der Embedding-Vektoren	195
	6.2.1 Nächste Nachbarn von Embeddings haben ähnliche Bedeutungen	195
	6.2.2 Differenzen zwischen Embeddings lassen sich als Relationen interpretieren	197
	6.2.3 FastText nutzt n-Gramme von Buchstaben	199
	6.2.4 StarSpace erzeugen Embeddings für andere Objekte	201
	6.3 Rekurrente neuronale Netze zur Erfassung von Sequenzen	202
	6.3.1 Rekurrente neuronale Netze als Sprachmodelle	203
	6.3.2 Training der rekurrenten neuronalen Netze	205
	6.3.3 Die Eigenschaften der Gradienten beim RNN	206
	6.4 Das Long-Short Term Memory (LSTM) ist ein Langzeitspeicher	208
	6.4.1 Gatter steuern die Speichervorgänge	208
	6.4.2 LSTMs mit mehreren Schichten	211
	6.4.3 Anwendungen des LSTM	212
	6.4.4 Bidirektionale LSTM-Netze zur Prognose von Worteigenschaften	214
	6.4.5 Visualisierung von rekurrenten neuronalen Netzen	216
	6.5 Übersetzung: Transformation einer Sequenz in eine andere Sequenz	217
	6.5.1 Sequence-to-Sequence Netze zur Übersetzung	218
	Erzeugen und Bewertung einer Übersetzung	219
	6.5.2 Attention: Verbesserung der Übersetzung durch Rückgriff auf die Eingabeworte	222
	6.5.3 Übersetzungsergebnisse mit Attention	224
	6.6 Transformer-Übersetzungsmodelle	227
	6.6.1 Selbstattention analysiert die Abhängigkeiten der Worte eines Satzes	228
	6.6.2 Kreuzattention analysiert die Abhängigkeiten zwischen Ein- und Ausgabe	229
	6.6.3 Transformer-Architektur nutzt Selbst- und Kreuzattention	231
	6.6.4 Training des Transformers für die Sprachübersetzung	233
	6.6.5 Byte-Pair Kodierung zur Reduktion des Vokabulars und zur Repräsentation unbekannter Wörter	235
	6.6.6 Ergebnisse für das Transformer-modell	235
	6.6.7 Simultane Übersetzung erfordert Wartezeiten	238
	6.7 BERT: Sprachmodelle für die Repräsentation von Bedeutungen	240
	6.7.1 BERT-Architektur	240
	6.7.2 BERT-Prognoseaufgaben zum unüberwachten Vortraining	241
	6.8 Transferlernen mit umfangreichen BERT-Modellen der Sprache	243
	6.8.1 Semantische Klassifikationsaufgaben	243
	6.8.2 Die Beantwortung von Fragen	245
	6.8.3 Extraktion von Weltwissen	247
	6.8.4 Transferlernen für Übersetzungsmodelle	250
	6.8.5 Anwendung von BERT in der Web-Suche	252
	6.9 Die Beschreibung von Bildern durch Text	253
	6.10 Die Erklärung der Prognosen von TNN	256
	6.10.1 Erklärungen sind notwendig	256
	6.10.2 Globale Erklärungsmodelle	257
	6.10.3 Lokale Erklärungsmodelle	258
	6.11 Zuverlässigkeit der Texterkennung	260
	6.11.1 Robustheit bei Textfehlern und Änderung der Domäne	260
	6.11.2 Anfälligkeit für böswillige Änderung von Eingaben	261
	6.12 Zusammenfassung und Trends	262
	Literatur	264
	7: Gesprochene Sprache verstehen	268
	7.1 Spracherkennung	268
	7.1.1 Warum ist Spracherkennung schwierig?	268
	7.1.2 Wie kann man Sprachsignale im Computer darstellen?	269
	7.1.3 Messung der Genauigkeit der Spracherkennung	272
	Die Wortfehlerrate WER	272
	Bekannte Testdatensätze zur Spracherkennung	272
	7.1.4 Die Geschichte der Spracherkennung	273
	7.2 Tiefe Sequence-to-Sequence-Modelle	274
	7.2.1 Listen-Attend-Spell erzeugt eine Folge von Buchstaben	275
	7.2.2 Sequence-To-Sequence Modell für Worte und Silben	278
	7.3 Convolutional Neural Network zur Spracherkennung	278
	7.3.1 CNN Modelle	279
	7.3.2 Kombinierte Modelle	282
	ResNet und BiLSTM	282
	Vergrößerung der Trainingsdaten	283
	7.4 Lippenlesen	283
	7.5 Erzeugung von gesprochener Sprache aus Text	284
	7.5.1 WaveNet mit gedehnten Convolution-Schichten für lange Abhängigkeiten	285
	7.5.2 Das Tacotron erzeugt ein Spektrogramm	287
	7.6 Dialoge und Sprachassistenten	289
	7.7 Gunrock: Ein erweiterter Alexa-Sprachassistent	291
	7.7.1 Sprachverstehen	292
	7.7.2 Dialogmanagement	293
	7.7.3 Antworterzeugung	294
	7.7.4 Erprobung des Sprachassistenten	294
	7.8 Analyse der Inhalte von Videos	295
	7.8.1 Aufgaben der Videoinhaltsanalyse	296
	7.8.2 Trainingsdaten zur Klassifikation von Videos nach Aktivitäten	296
	7.8.3 Convolution-Schichten zur Erkennung von Videoinhalten	297
	7.8.4 Genauigkeit der Videoklassifikation	300
	7.8.5 Die Erzeugung von Untertiteln für Videos	301
	7.9 Zuverlässigkeit der Verarbeitung gesprochener Sprache	304
	7.9.1 Der Effekt von Rauschen und anderen Verzerrungen auf die Spracherkennung	305
	7.9.2 Adversariale Attacken auf die automatische Spracherkennung	305
	7.10 Zusammenfassung	306
	Literatur	308
	8: Lernen von optimalen Strategien	311
	8.1 Einige Grundbegriffe	313
	8.2 Tiefes Q-Netz	316
	8.2.1 Strategie zur Maximierung der Summe der Belohnungen	316
	8.2.2 Eine kleine Navigationsaufgabe	316
	8.2.3 Diskontierter zukünftiger Gewinn belohnt schnelle Lösungen	317
	8.2.4 Die Q-Funktion bewertet Zustands-Aktionspaare	317
	8.2.5 Die Bellmangleichung stellt eine Beziehung zwischen Q-Werten her	318
	8.2.6 Approximation der Q-Funktion durch ein tiefes neuronales Netz	319
	8.2.7 Q-Lernen: Training eines tiefen Q-Netzes	319
	Erzeugung einer Episode mit dem tiefen Q-Netz	319
	Optimierung mit der erzeugten Episode	320
	Praktische Tricks: Auswahl der Trainingsbeispiele und Verlustfunktionsberechnung	321
	Exploration	322
	8.3 Anwendung von Q-Lernen auf Atari Videospiele	323
	8.3.1 Definition des Spielzustands bei Atari-Spielen	323
	8.3.2 Architektur des Atari-Netzes	324
	8.3.3 Training	324
	8.3.4 Auswertung der tiefen neuronalen Netze der Atari-Videospiele	325
	8.4 Strategiegradienten zum Erlernen von stochastischen Strategien	327
	8.4.1 Notwendigkeit von Strategien mit Zufallselementen	327
	8.4.2 Direkte Optimierung einer Strategie durch Strategiegradienten	328
	8.4.3 Erweiterungen des Strategiegradienten: Actor-Critic und Proximal Policy Optimization	330
	8.4.4 Anwendung auf Robotik und Go	332
	8.4.5 Anwendung in Dota2	334
	8.5 Selbstfahrende Autos	335
	8.5.1 Sensoren selbstfahrender Autos	336
	8.5.2 Funktionalität eines Agenten fürs autonome Fahren	337
	8.5.3 Feintuning durch Simulation	340
	8.6 Zuverlässigkeit des Bestärkungslernens	343
	8.6.1 Training in Simulationsumgebungen oft schwierig übertragbar	343
	8.6.2 Adversariale Attacken auf Modelle zum Bestärkungslernen	344
	8.7 Zusammenfassung und Trends	345
	Literatur	346
	9: Kreative Künstliche Intelligenz und Emotionen	349
	9.1 Bilder erzeugen mit generativen adversarialen Netzen (GAN)	349
	9.1.1 Fälscher und Kunstexperte	349
	9.1.2 Generator und Diskriminator	350
	9.1.3 Optimierungskriterium für Generator und Diskriminator	350
	9.1.4 Die Ergebnisse generativer adversarialer Netze	351
	9.1.5 Interpolation zwischen Bildern	355
	9.1.6 Transformation von Bildern	356
	9.1.7 Transformation von Bildern ohne Trainingspaare	357
	9.1.8 Creative Adversarial Network	360
	9.1.9 Erzeugung von Bildern aus Text	363
	9.1.10 GAN-generierte Modelle von Personen in drei Dimensionen	364
	9.2 Texte verfassen	365
	9.2.1 Automatischer Reporter: Daten in Zeitungsmeldungen darstellen	365
	9.2.2 Generierung von längeren Geschichten	365
	9.2.3 GPT2 erfindet komplexe Geschichten	366
	Prognosefähigkeit von GPT-2	369
	Visualisierung der Modellprognosen	370
	Weiterentwicklungen von GPT-2	371
	9.3 Musik automatisch komponieren	373
	9.3.1 MuseNet komponiert Mischungen von Klassik und Pop	374
	9.3.2 Der Music Transformer erfindet Klavierstücke	376
	9.4 Emotionen und Persönlichkeit	377
	9.4.1 Ein XiaoIce Dialog	377
	9.4.2 Das Ziel: Personen zum Weiterreden animieren	379
	9.4.3 Architektur von XiaoIce	380
	9.4.4 Anzahl der Benutzerantworten als Optimierungskriterium	382
	9.4.5 Emotionale Empathie und Unterstützung	384
	9.5 Zusammenfassung und Trends	387
	Literatur	390
	10: KI und ihre Chancen, Herausforderungen und Risiken	393
	10.1 Chancen für Wirtschaft und Gesellschaft	396
	10.1.1 Smart Home, mein Haus kümmert sich um mich	396
	Was ist der Vorteil für den Nutzer?	397
	10.1.2 Diagnose, Therapie, Pflege und Verwaltung in der Medizin	398
	KI in Früherkennung und Diagnose	399
	KI in der Therapie	401
	KI in der Pflege	401
	KI in der Krankenhausverwaltung	403
	10.1.3 Maschine Learning in der industriellen Anwendung	404
	10.1.4 Weitere Einsatzgebiete der KI	407
	10.2 Wirtschaftliche Auswirkungen und Zusammenhänge	412
	10.2.1 Die Monetarisierung von Daten	412
	10.2.2 Die neue digitale Servicewelt – KI as a service	416
	10.2.3 Große Unternehmen als Treiber der KI	419
	Der KI-Konzern Google	420
	Die chinesische Konkurrenz	420
	Chance für Europa	422
	10.2.4 Die Auswirkungen auf den Arbeitsmarkt	422
	Bildung für eine digitale Welt	424
	Das Berufsbild des Data Scientists	425
	10.3 Gesellschaftliche Herausforderungen	428
	10.3.1 Herausforderungen der KI in der Medizin	430
	10.3.2 1984 2.0: KI als Instrument der Überwachung	431
	10.3.3 Krieg der Maschinen	434
	10.3.4 Starke Künstliche Intelligenz	436
	10.4 Methodische Herausforderungen	438
	10.4.1 Kombination von Daten und unscharfem Schließen	439
	10.4.2 Schnelles und Langsames Denken	440
	10.5 Vertrauen schaffen in die KI	444
	10.5.1 Wie baut man vertrauenswürdige KI-Systeme?	447
	10.5.2 Wie kann man tiefe neuronale Netze testen?	448
	10.5.3 Ist eine selbstbestimmte, effektive Nutzung eines KI-Systems möglich?	449
	10.5.4 Behandelt das KI-System alle Betroffenen fair?	451
	10.5.5 Sind Funktionsweise und Entscheidungen der KI nachvollziehbar?	452
	10.5.6 Ist das KI-System sicher gegenüber Angriffen, Unfällen und Fehlern?	453
	10.5.7 Funktioniert die KI-Komponente zuverlässig und ist sie robust?	454
	10.5.8 Schützt die KI die Privatsphäre und sonstige sensible Informationen?	455
	10.5.9 Die Herausforderungen für ein KI-Gütesiegel	456
	10.6 Zusammenfassung	457
	Literatur	459
	A Anhang	463
	A.1 Glossar	464
	A.2 Verzeichnis der Abbildungen und deren Quellen	483
	A.3 Literatur zum Anhang	498
	A.4 Stichwortverzeichnis	504

Künstliche Intelligenz - Was steckt hinter der Technologie der Zukunft?

von: Gerhard Paaß, Dirk Hecker

Künstliche Intelligenz - Was steckt hinter der Technologie der Zukunft?

Kategorien

eBooks

Audiobooks