Дълбоките невронни мрежи: какво представляват и как работят
Дълбоките невронни мрежи са концепция, която съставлява основната технологична архитектура, използвана в моделите на дълбоко обучение. Тези структури не могат да бъдат разбрани без разбиране на общата идея за изкуствените невронни мрежи, фундаментални за изкуствения интелект.
Невронните мрежи се използват за хиляди неща: разпознаване на регистрационни номера, песни, лица, гласове или дори плодовете в нашата кухня. Те са особено полезна технология и въпреки факта, че едва наскоро станаха практични, те ще бъдат бъдещето на човечеството.
Следващия Ще видим в дълбочина идеята за изкуствени невронни мрежи и дълбоко, разбирайки как работят, как се обучават и как възникват взаимодействията между различните неврони, които ги съставят.
- Свързана статия: „Какво е когнитивната наука? Неговите основни идеи и фази на развитие"
Какво представляват дълбоките невронни мрежи и какво ги характеризира?
Дълбоките невронни мрежи са една от най-важните технологични архитектури, използвани в Deep Learning или Deep Learning
. Тези конкретни изкуствени мрежи имаха главозамайващ растеж през последните години, тъй като представляват основен аспект, когато става въпрос за разпознаване на всякакви модели. Изкуственият интелект съществува благодарение на работата на тези конкретни мрежи, които в По същество те се превръщат в копие на това как работят мозъците ни, въпреки че в технологичен и математика.Преди да преминем по-нататък към това какво представляват дълбоките невронни мрежи, първо трябва да разберем как работят изкуствените невронни мрежи като цяло и за какво служат. Лневронните мрежи са клон на „машинното обучение“, който има огромно влияние през последните години, помагайки на програмисти и компютърни учени да създават неща като чатботове, които, когато говорим с тях, ни карат да мислим, че говорим с истински човешки същества.
Изкуствените невронни мрежи също са били използвани със самоуправляващи се автомобили, мобилни приложения, които разпознават лицето ни и го трансформират в това, което искаме и много други функции. Неговата приложимост е много широка, служи като основа на съвременния изкуствен интелект и има безкрайни ползи за ежедневието ни.
изкуствени невронни мрежи
Нека си представим, че сме в нашата кухня и решаваме да потърсим портокал, много проста задача.. Ние знаем как да разпознаем портокала много лесно и също така знаем как да го различим от другите плодове, които намираме в кухнята, като банани, ябълки и круши. Като? Тъй като в нашия мозък сме усвоили много типичните свойства на портокала: неговите неговия размер, формата му, цвета, който има, как мирише... Това са всички параметри, които използваме, за да намерим оранжево.
Това е проста задача за хората, но... Може ли и компютър да го направи? Отговорът е да. По принцип би било достатъчно да се дефинират същите тези параметри и да се присвои стойност на възел или нещо, което можем да наречем „изкуствен неврон“. Бихме казали на този неврон какви са портокалите, като посочим техния размер, тегло, форма, цвят или всеки друг параметър, който приписваме на този плод. Разполагайки с тази информация, се очаква невронът да знае как да идентифицира портокал, когато му бъде представен такъв.
Ако сме избрали добре параметрите, ще ви бъде лесно да различите портокали от неща, които не са портокали, просто като вземете предвид тези характеристики. Когато му бъде представено изображение на плод, този неврон ще търси характеристиките свързан с портокала и да реши дали да го включи в категорията „портокал“ или в категорията „други“. плодове". От гледна точка на статистиката би било да се намери регион в параметърна графика, който съответства на това, което съществува търсейки регион, който да обхваща всички парчета плодове, които имат същия размер, форма, цвят, тегло и аромат като портокали.
Първоначално всичко това звучи много лесно за кодиране и всъщност е така. Работи много добре за разграничаване на портокал от банан или ябълка, тъй като те имат различни цветове и форми. Но какво ще стане, ако ви представим грейпфрут? и много голяма мандарина? Те са плодове, които перфектно могат да бъдат объркани с портокал. Ще може ли изкуственият неврон сам да разграничи портокали от грейпфрути? Отговорът е не и всъщност те вероятно се смятат за еднакви.
Проблемът с използването само на един слой изкуствени неврони, или което е същото, първо с използването само на прости неврони, е, че генерира много неточни граници за вземане на решения, когато ви бъде представено нещо, което има много общи характеристики с това, което трябва да можете да разпознаете, но в действителност не е така. Ако представим нещо, което прилича на портокал, например грейпфрут, дори и да не е този плод, то ще го идентифицира като такъв.
Тези граници на решение, ако са представени под формата на графика, винаги ще бъдат линейни. Използване на единичен изкуствен неврон, тоест единичен възел, който има интегрирани параметри конкретни, но не може да учи отвъд тях, ще бъдат получени много близки граници за вземане на решения. дифузен. Основното му ограничение е, че използва два статистически метода, по-специално многокласова регресия и логистична регресия, което означава, че при съмнение включва нещо, което не е това, което сме очаквали да бъде. ще идентифицира.
Ако трябва да разделим всички плодове на „портокали“ и „непортокали“, използвайки само един неврон, става ясно, че бананите, крушите, ябълки, дини и всякакви плодове, които не отговарят по размер, цвят, форма, аромат и прочие на портокалите, бих ги сложил в категорията "не". портокали”. Въпреки това, грейпфрутите и мандарините биха ги поставили в категорията "портокали", вършейки зле работата, за която са предназначени.
И когато говорим за портокали и грейпфрути, бихме могли да говорим за кучета и вълци, кокошки и пилета, книги и тетрадки... Всички Тези ситуации са случаи, в които проста поредица от „ако...“ („ако...“) не би била достатъчна, за да се разграничи ясно едното от другото. друго. Необходима е по-сложна, нелинейна система, която е по-прецизна, когато става въпрос за разграничаване на различните елементи. Нещо, което отчита, че между приликите може да има разлики. Тук се намесват невронните мрежи.
Повече слоеве, по-подобни на човешкия мозък
Изкуствените невронни мрежи, както подсказва името им, са изчислителни изкуствени модели, вдъхновени от в невронните мрежи на човешкия мозък, мрежи, които всъщност имитират функционирането на този орган биологични. Тази система е вдъхновена от невронното функциониране и нейното основно приложение е разпознаването на модели от всякакъв вид: лицева идентификация, гласово разпознаване, пръстови отпечатъци, почерк, регистрационни номера… Разпознаването на образи работи за почти всичко..
Тъй като има различни неврони, параметрите, които се прилагат са различни и се получава по-висока степен на прецизност. Тези невронни мрежи са системи, които ни позволяват да разделяме елементите в категории, когато разликата може да бъде фина, разделяйки ги по нелинеен начин, нещо, което би било невъзможно да се направи по друг начин начин.
С един възел, с един неврон, това, което се прави при обработката на информацията, е многокласова регресия. Чрез добавяне на повече неврони, тъй като всеки един от тях има своя собствена нелинейна активираща функция, която, преведена на по-прост език, ги кара да имат граници на решения, които са по-точно, графично представено в извита форма и вземащо предвид повече характеристики при разграничаване между „портокали“ и „не портокали“, за да продължим с този пример.
Кривината на тези граници на решение ще зависи пряко от това колко слоя неврони добавяме към нашата невронна мрежа. Тези слоеве от неврони, които правят системата по-сложна и по-прецизна, всъщност са дълбоки невронни мрежи. По принцип колкото повече слоеве от дълбоки невронни мрежи имаме, толкова по-точна и сходна ще бъде програмата в сравнение с човешкия мозък.
Накратко, невронните мрежи не са нищо повече от интелигентна система, която позволява вземането на по-прецизни решения, по много подобен начин на начина, по който ние, човешките същества, го правим. Човешките същества се основават на опит, учейки се от нашата среда. Например, връщайки се към портокала и грейпфрута, ако никога не сме виждали такъв, напълно ще го сбъркаме с портокал. Когато се запознаем с него, ще бъде тогава, когато вече знаем как да го идентифицираме и да го разграничим от портокалите.
Първото нещо, което се прави, е да се дадат някои параметри на невронните мрежи, така че те да знаят какво е това, което искаме да се научи да идентифицира. След това идва фазата на обучение или обучение, така че да става все по-точен и прогресивно да има по-малка граница на грешка. Това е времето, когато ще представим нашата невронна мрежа с портокал и други плодове. Във фазата на обучение ще им бъдат дадени случаи, в които са оранжеви, и случаи, в които не са оранжеви, като ще се види дали са отговорили правилно и ще им се каже правилният отговор.
Ще се опитаме да направим многобройни опити и възможно най-близо до реалността.. По този начин ние помагаме на невронната мрежа да работи, когато пристигнат реални случаи и тя знае как да разграничава правилно, по същия начин, по който човек би направил в реалния живот. Ако обучението е било адекватно, като сте избрали добри параметри за разпознаване и са класифицирани добре, невронната мрежа ще има много висок процент на успех при разпознаване на образи. Високо.
- Може да се интересувате от: „Как работят невроните?“
Какво представляват те и как точно работят?
Сега, след като видяхме общата идея какво представляват невронните мрежи и ще разберем по-пълно какво представляват те и как тези емулатори на невроните на човешкия мозък работят и къде дълбоките невронни мрежи рисуват във всичко това процес.
Нека си представим, че имаме следната невронна мрежа: имаме три слоя изкуствени неврони. Да кажем, че първият слой има 4 неврона или възли, вторият 3, а последният има само 2. Всичко това е пример за изкуствена невронна мрежа, доста лесна за разбиране.
Първият слой е този, който получава данните., тоест информацията, която може да дойде под формата на звук, изображение, аромати, електрически импулси... Това първо слой е входният слой и отговаря за получаването на всички данни, за да може по-късно да ги изпрати на следното слоеве. По време на обучението на нашата невронна мрежа, това ще бъде слоят, с който ще работим първо, давайки я данни, които ще използваме, за да видим колко сте добри в правенето на прогнози или идентифицирането на информацията, която ви е дадена дава.
Вторият слой на нашия хипотетичен модел е скритият слой, който се намира точно в средата на първия и последния слой., сякаш нашата невронна мрежа е сандвич. В този пример имаме само един скрит слой, но може да има колкото искаме. Можем да говорим за 50, 100, 1000 или дори 50 000 слоя. По същество тези скрити слоеве са частта от невронната мрежа, която бихме нарекли дълбока невронна мрежа. Колкото по-голяма е дълбочината, толкова по-сложна е невронната мрежа.
Накрая имаме третия слой от нашия пример, който е изходният слой. Този слой, както показва името му, е отговорен за получаване на информация от предишните слоеве, вземане на решение и даване на отговор или резултат.
В невронната мрежа всеки изкуствен неврон е свързан с всички следващи. В нашия пример, където сме коментирали, че имаме три слоя от 4, 3 и 2 неврона, 4-те от входния слой са свързано с 3 на скрития слой и 3 на скрития слой с 2 на изхода, което ни дава общо 18 връзки.
Всички тези неврони са свързани с тези от следващия слой, изпращайки информацията в посока вход->скрит->изход.. Ако имаше повече скрити слоеве, щяхме да говорим за по-голям брой връзки, изпращащи информацията от скрит слой на скрит слой, докато достигне изходния слой. Изходният слой, след като получи информацията, това, което ще направи, е да ни даде резултат въз основа на информацията, която е получил, и начина, по който я обработва.
Когато обучаваме нашия алгоритъм, тоест нашата невронна мрежа, този процес, който току-що обяснихме, ще се извършва много пъти. Ще доставим някои данни в мрежата, ще видим какво ни дава резултатът и ще го анализираме и сравним с това, което очакваме да ни даде резултатът. Ако има голяма разлика между това, което се очаква и това, което се получава, това означава, че има голяма граница на грешка и че следователно е необходимо да се направят няколко модификации.
Как работят изкуствените неврони?
Сега ще разберем индивидуалното функциониране на невроните, които работят в една невронна мрежа. Невронът получава входна информация от предишния неврон. Да кажем, че този неврон получава три информационни входа, всеки от които идва от трите неврона на предишния слой. На свой ред този неврон генерира изходи, в този случай да кажем, че е свързан само с неврон от следващия слой.
Всяка връзка, която този неврон има с трите неврона от предишния слой, носи стойност "x", която е стойността, която предишният неврон ни изпраща.; и също така има стойност "w", която е теглото на тази връзка. Теглото е стойност, която ни помага да придадем по-голямо значение на една връзка пред други. Накратко, всяка връзка с предишните неврони има стойности „x“ и „w“, които се умножават (x·w).
Ние също ще имаме стойност, наречена "пристрастие" или пристрастие, представено с "b", което е броят на грешките, който насърчава определени неврони да се активират по-лесно от други. В допълнение, имаме активираща функция в рамките на неврона, което определя степента му на класифициране на различни елементи (стр. портокали) не е линеен. Сам по себе си, всеки неврон има различни параметри, които трябва да се вземат предвид, което прави цялата система, това е невронната мрежа, класифицирана по нелинеен начин.
Как невронът знае дали трябва да се активира или не? тоест, кога знаете дали трябва да изпратите информация на следващия слой? Е, това решение се управлява от следното уравнение:
Тази формула означава, че трябва да се направи сумата от всички тегла "w", умножени по всички стойности на "x", които невронът получава от предишния слой. Към това се добавя отклонението "b".
Резултатът от това уравнение се изпраща на функция за активиране, което е просто функция, която ни казва, че ако резултатът от това уравнение е по-голям от a определено число, невронът ще изпрати сигнал до следващия слой и, ако е по-малко, тогава няма да го направи да го изпратите И така, ето как един изкуствен неврон решава дали да изпрати информация до невроните, както следва: слой с помощта на изход, който ще наречем "y", изход, който от своя страна е вход "x" на следното неврон.
И как се обучава цяла мрежа?
Първото нещо, което се прави, е да се доставят данни на първия слой, както вече коментирахме. Този слой ще изпрати информация до следващите слоеве, които са скритите слоеве или дълбоката невронна мрежа. Невроните на тези слоеве ще се активират или не в зависимост от получената информация. Накрая изходният слой ще ни даде резултат, който ще сравним със стойността, която чакахме, за да видим дали невронната мрежа е научила какво да прави правилно.
Ако той не се научи добре, тогава ще извършим друго взаимодействие, т.е. ще ви представим отново информация и ще видим как се държи невронната мрежа. В зависимост от получените резултати, стойностите на "b" ще бъдат коригирани, тоест отклонението на всеки неврон, и "w", това е теглото на всяка връзка с всеки неврон, за да се намали грешката. За да разберем колко голяма е тази грешка, ще използваме друго уравнение, което е следното:
Това уравнение е средната квадратична грешка. Ще направим сумата от y (x), която е стойността, която нашата мрежа ни даде при взаимодействието, минус „a“, която е стойността, която очаквахме да ни даде, повдигната на квадрат. И накрая, ще умножим тази сума по 1/2n, което е „n“ броят на взаимодействията, които сме изпратили, за да обучим нашата невронна мрежа.
Да предположим например, че имаме следните стойности
Първата колона „y (x)“ представлява това, което нашата мрежа ни е дала във всяко от четирите взаимодействия, които сме я тествали. Стойностите, които получихме, както се вижда, не съответстват на тези от втората колона „а“, които са желаните стойности за всяко от тестваните взаимодействия. Последната колона представлява грешката на всяко взаимодействие.
Прилагайки гореспоменатата формула и използвайки тези данни тук, имайки предвид, че в този случай n = 4 (4 взаимодействия) ни дава стойност от 3,87, което е средната квадратична грешка, която нашата невронна мрежа има в тези моменти. Като знаем грешката, това, което трябва да направим сега, е, както сме коментирали преди, да променим пристрастието и теглата на всеки един от невроните и техните взаимодействия с намерението, че по този начин грешката е намалявам.
В този момент кандидатстват инженери и компютърни учени алгоритъм, наречен градиентно спускане с които могат да получат стойности, за да тестват и модифицират отклонението и теглото на всеки изкуствен неврон така че по този начин се получава все по-ниска грешка, доближаваща се до прогнозата или резултата издирва се. Това е въпрос на тестване и колкото повече взаимодействия се правят, толкова повече обучение ще има и толкова повече ще научи мрежата.
След като невронната мрежа бъде адекватно обучена, ще бъде моментът, когато тя ще ни дава точни и надеждни прогнози и идентификации. В този момент ще имаме мрежа, която ще има във всеки от своите неврони стойност от дефинирано тегло, с контролирано отклонение и с капацитет за вземане на решения, който ще направи системата работа.
Библиографски справки:
- Пуиг, А. [AMP Tech] (2017, 28 юли). Как работят невронните мрежи? [Видео файл]. Възстановен от https://www.youtube.com/watch? v=IQMoglp-fBk&ab_channel=AMPTech
- Сантаолала, Дж. [Подарете си Vlog] (2017, 11 април) CienciaClip Challenge - Какво представляват невронните мрежи? [Видео файл]. https://www.youtube.com/watch? v=rTpr6DuY4LU&ab_channel=DateunVlog
- Шмидхубер, Дж. (2015). „Задълбочено обучение в невронни мрежи: Общ преглед“. Невронни мрежи. 61: 85–117. arXiv: 1404.7828. doi: 10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509