Веднага знаете, че това е порно. Ще разбере ли компютърът? - Алтернативен изглед

Съдържание:

Веднага знаете, че това е порно. Ще разбере ли компютърът? - Алтернативен изглед
Веднага знаете, че това е порно. Ще разбере ли компютърът? - Алтернативен изглед

Видео: Веднага знаете, че това е порно. Ще разбере ли компютърът? - Алтернативен изглед

Видео: Веднага знаете, че това е порно. Ще разбере ли компютърът? - Алтернативен изглед
Видео: Ангел Бэби Новые серии - Игра окончена (29 серия) Поучительные мультики для детей 2024, Септември
Anonim

Tumblr обяви началото на миналия месец, че ще забрани порно. Когато новата политика за съдържание влезе в сила, около две седмици по-късно - на 17 декември - стана ясно, че ще има проблеми. След внедряването на система за изкуствен интелект, която трябваше да забрани цялата порнография в сайта, тя погрешно маркира невинни постове в 455.4 милиона блога на сайта сред 168.2 милиарда публикации: вази, вещици, риби и всичко това джаз.

Порнография за изкуствен интелект

Въпреки че не е ясно кой автоматичен филтър използва Tumblr или създаде свой собствен - компанията не отговори на запитвания по темата - ясно е, че социалната мрежа е заседнала между собствената си политика и технология. Например непоследователната позиция на сайта за „жени, показващи зърна“и художествена голота например, доведе до контекстуални решения, които показват, че дори Tumblr не знае какво да забрани на своята платформа. Как често компания може да определи какво смята за неприлично?

Първо, блокирането на рисково съдържание е трудно, тъй като е трудно да се определи какво е от самото начало. Определението за неприличие е капан за мечка, който е на повече от сто години, още през 1896 г. Съединените щати първи приеха закони, регулиращи непристойността. През 1964 г., в Jacobellis срещу Ohio, над това дали Охайо може да забрани екранизацията на филм за Луис Мал, Върховният съд издаде това, което вероятно е най-известното определение на хардкор порнография днес: „Днес няма да се опитвам да определям този вид материали, които, както разбирам, тя ще бъде включена в дословното описание; и аз никога няма да успея да го направя разбираем ", каза съдията Потър Стюарт. "Но знам какво е, когато го видя, и филмът, свързан с този случай, не е."

Алгоритмите за машинно обучение имат същия проблем. Точно това е проблемът, който Браян Делорг, изпълнителен директор на Picnix, компания, която продава специализирани технологии за изкуствен интелект, се опитва да реши. Един от техните продукти, Айрис, е клиентско приложение за откриване на порнография, за да „помогне на хората“, както казва Delorge, „които не искат порно в живота си“. Той отбелязва, че специфичният проблем с порно е, че може да бъде всичко, куп различни неща - и изображения, които не са порнографски, могат да имат подобни елементи. Изображението на плажното парти може да бъде блокирано не защото има повече кожа от снимката в офиса, а защото е на ръба. „Ето защо е много трудно да се обучи алгоритъм за разпознаване на изображение, за да се направи всичко наведнъж“, казва ДеЛордж."Когато дефиницията стане трудна за хората, компютърът също има затруднения." Ако хората не могат да се договорят какво е порно и кое не, може ли компютърът дори да се надява да знае разликата?

За да научите AI да открива порно, първото нещо, което трябва да направите, е да го нахраните с порно. Много порнография. Къде мога да го взема? Е, първото нещо, което хората правят, е да изтеглят куп видеоклипове от Pornhub, XVideos, казва Дан Шапиро, съосновател на Lemay.ai, стартиращ, който създава AI филтри за своите клиенти. "Това е една от онези сиви зони от правен характер - например, ако се учите от съдържанието на други хора, принадлежи ли ви?"

След като програмистите изтеглят тонове порно, те изрязват не-порнографски кадри от видеото, за да се уверят, че използваните кадри не блокират момчетата за доставка на пица. Платформите плащат на хората, предимно извън САЩ, да маркират такова съдържание; работата е нископлатена и скучна, като влизане в капча. Те просто седят и отбелязват: това е порно, това е това. Трябва да филтрирате малко, защото цялото порно излиза с етикет. Ученето е по-добре, ако използвате не само снимки, но големи извадки от данни.

Промоционално видео:

„Често пъти не е нужно просто да филтрирате порно, а по-скоро придружаващия го материал“, казва Шапиро. „Като фалшиви профили със снимка и телефон на момиче.“Той има предвид сексуалните работници, които търсят клиенти, но това може да е всичко, което не е напълно законно. "Това не е порно, но това е видът, който не искате да гледате на вашата платформа, нали?" Добрият автоматизиран модератор се учи от милиони - ако не и десетки милиони - на примерно съдържание, което може да ви спести тонове човекочаси.

„Можете да сравните това с разликата между дете и възрастен“, казва Мат Зейлер, изпълнителен директор и основател на Clarifai, стартиращ компютърно зрение, който прави този вид филтриране на изображения за корпоративни клиенти. „Мога да ви кажа със сигурност - преди няколко месеца имахме бебе. Те не знаят нищо за света, всичко е ново за тях. " Трябва да покажете на детето (алгоритъма) много неща, така че той да разбере нещо. „Милиони и милиони примери. Но като възрастни - когато създадохме толкова много контекст за света и разбрахме как той работи - можем да научим нещо ново само от няколко примера. " (Да, преподаването на AI за филтриране на съдържание за възрастни е като показване на дете много порно.) Компании като Clarifai днес бързо нарастват. Имат добра база данни за света, могат да разказват кучета от котки, облечени от голи. Компанията на Zeiler използва своите модели за обучение на нови алгоритми за своите клиенти - тъй като оригиналният модел обработва много данни, персонализираните версии ще изискват само нови набори от данни, за да работят.

За алгоритъма обаче е трудно да го оправи. Добре се справя със съдържание, което очевидно е порнографско; но класификаторът може неправилно да маркира реклама за бельо като извън границите, тъй като снимката има повече кожа, отколкото, да речем, офис. (С бикини и бельо, според Zeiler, е много трудно). Това означава, че маркетолозите трябва да се съсредоточат върху тези крайни случаи в своята работа, като дават приоритет на трудните за класифициране модели.

Коя е най-трудната част?

"Аниме порно", казва Зейлер. „Първата версия на нашия детектор за голота не използва анимационна порнография за образование.“Много пъти ИИ го объркаха, защото не разпознава хентай. „След като работихме за това за клиента, ние вмъкнахме много от техните данни в модела и драстично подобрихме точността на филтъра за анимационни филми, като същевременно поддържахме точността на истинските фотографии“, казва Зейлер.

Технологията, която е научена да издушва порно, може да се използва и за други неща. Технологиите, стоящи зад тази система, са изключително гъвкави. Това е повече от аниме цици. Например, мозайката от Alphabet се използва широко като автоматичен модератор на коментари във вестник. Този софтуер работи по подобен начин на класификаторите на изображения, само че сортира по токсичност, а не по голота. (Токсичността в текстовите коментари е толкова трудна за определяне, колкото и порнографията в снимките.) Facebook използва този вид автоматично филтриране за откриване на самоубийствени съобщения и свързано с тероризма съдържание и се опита да използва тази технология за откриване на фалшиви новини на своята масивна платформа.

Всичко това все още зависи от човешкия надзор; по-добре се справяме с неяснотата и двусмисления контекст. Зайлер казва, че не смята, че продуктът му е поел нечия работа. Той решава проблема с мащабирането в интернет. Хората все още ще тренират AI чрез сортиране и етикетиране на съдържанието, така че AI да може да го различи.

Това е бъдещето на модерирането: персонализирани решения „до ключ“, предоставени на компании, които извършват целия си бизнес, като преподават на повече и по-модерни класификатори повече данни. Точно както Stripe and Square предлагат изходящи решения за плащане за фирми, които не искат сами да ги обработват, стартиращи компании като Clarifai, Picnix и Lemay.ai ще правят онлайн модерация.

Дан Шапиро от Lemay.ai се надява. „Както при всяка технология, тя все още е в процес на изобретяване. Така че не мисля, че ще се предадем, ако не успеем. Но дали AI някога ще може да работи автономно без човешки надзор? Неясен. „Няма малък човек в кутия за смъркане, филтриращ всеки изстрел“, казва той. „Трябва да получите данни отвсякъде, за да обучите алгоритъма върху него.“

Зайлер, от друга страна, вярва, че един ден изкуственият интелект ще модерира всичко сам. В крайна сметка броят на човешките интервенции ще бъде намален до нула или незначително усилие. Постепенно човешките усилия ще се превърнат в нещо, което AI не може да направи сега, като разсъждения на високо ниво, самосъзнание - всичко, което хората имат.

Признаването на порнография е част от това. Идентифицирането е сравнително тривиална задача за хората, но е много по-трудно да се обучава алгоритъм за разпознаване на нюанси. Определянето на прага, когато филтърът маркира изображение като порнографско или непорнографско, също е трудна задача, отчасти математическа.

Изкуственият интелект е несъвършено огледало за това как виждаме света, точно както порнографията е отражение на случващото се между хората, когато са сами. В това има някаква истина, но няма пълна картина.

Иля Кел