Tehnologija podatkov Yandex Live. Yandex podatkovna tovarna in Intel spremenita običajne načine za uporabo velikih podatkov

Yandex Data Factory je postala podjetje, ki ga je izbrala Sberbank za "Analiza podatkovnih super masivov". Alexander Heitin, vodja projektne pisarne YDF, je povedal prihodnosti, prav tako, kako lahko banka uporabi velike podatkovne tehnologije z obračanjem iz abstraktnih pogovorov v primeru.

Pred dvema ali tremi leti so bili veliki podatki zelo glasni. Vsaka banka je menila, da jo omenja. Zdaj se vsi umirijo. Obstaja občutek, da so banke razočarale v tehnologiji. Je tako?
Pravzaprav so preprosto prenehali izgovoriti ta izraz. Ampak, če pogledate v "znotraj" bank - mnogi imajo hadoop. Zdaj že govorijo o uporabi tehnologij in ne samo abstraktnega razloga o njihovem teoretičnem pripomočku. Na primer, osebna priporočila za podjetje, ki ima več kot 100.000 strank - je velik podatki po definiciji. Samo zaradi obsega vpletenih podatkov.

To pomeni, da je prva uporaba velikih podatkov navzgor in navzkrižno prodajo? Toda na tem področju klasični CRM sistemi delajo dolgo časa ...
Za uporabo velikih podatkov sta potrebna le dva pogoja: prvič, podatki so na voljo, in drugič, sedanja sredstva se že uporabljajo. Družba je na primer že vzpostavila kanal, ki je bila poslana vsem SMS, in ljudje se odzivajo nanje. Postopek je zgrajen in je ekonomsko učinkovit, in želimo nekaj več odstotkov odziva. Hkrati je zmogljivost kanala omejena - ne moremo poslati 100 sporočil osebi, ki se preprosto ne odzove nanje. Jasno je, da je rezultat mogoče doseči le na račun natančnejše ponudbe. Recimo, da je treba razumeti, da bi bilo treba žensk upokojitvene starosti ponuditi depozit, moški pa po univerzi so posojilo. Ta pravila so prilagojena in delujejo. Toda resnica je, da vse take ženske ne morejo ponuditi depozit, moški pa so posojilo. In na račun velikih podatkov in strojno učenje Razumemo, kdo so potrebni točno ti izdelki, in tako dodajo največ nekaj odstotkov odziva. V našem poskusu za eno od bank na precej velikem vzorcu kupcev, je bilo mogoče povečati učinek poštnih priporočil za 13%.

V svojem predavanju, en podatkovni znanstvenik iz kloudere pravi, da sovraži, ko je povedal: "Tukaj so podatki, poiščite nekaj v njih." Lahko dela samo, ko je jasno uvrščen v nalogo. Vendar banke ne razumejo vedno, da se na splošno lahko opravi na podlagi teh podatkov in ne more nalogo.
Moramo razumeti, kaj potrebujete kozarec. Če želi dvigniti prodajo, je potrebno, ne sramežljivo, zato reči. Vendar, če banka želi povečati prodajo na splošno - to je preveč pogosta naloga. In povečati prodajo zaradi aktivne komunikacije s strankami - že bolj razumljiva naloga. Zaradi prefinjenosti lahko pričakujemo rast prodaje.

Kakšne podatke lahko za to lahko uporabi banka?
Najmočnejši signal je znak, da lahko uporabimo za napovedovanje nečesa, da bi nekaj kupili in tako naprej je v podatkih, ki se oblikujejo iz interakcije stranke in banke. In tukaj smo prvič videli zgodovino uporabe storitve - ali je stranka sprejela posojilo, ali ima bančno kartico, ki jo je odprl - vsi dogodki. Drugi del je zgodovina komunikacij - da je bil na voljo, kakšne predloge je sprejel in od katerega je zavrnil. In tretji del je socialno-demografski profil.

Koliko polj se uporablja v taki analizi?
Več polj, boljše, celo nelinearno. Tens in na stotine. Samo v socialnem profilu je vključevalo 10-15 polj. Pomembno je, da se takšni projekti lahko opravijo na depersonaliziranih podatkih. Ni potrebe, da bi poznali določeno osebo, njegovo ime in telefon. Pomembno je vedeti samo njegovo edinstvenost. Nadaljnja komunikacijska zgodovina, to ni več polja - to so evidence. Takšne evidence, če je bilo sporočilo, recimo, enkrat na mesec, 12 na leto. Torej v višini in se zaposlijo na stotine. To so podatki iz transakcijskih sistemov, CRM sistemov in drugih. Vse skupaj, pomnožene s številom kupcev, in tvorijo velike podatke.

Ti, kot del "Yandex", lahko te podatke dodate na nekaj informacij iz interneta?
To ni povsem prava predpostavka. Prvič, kot sem rekel, je najmočnejši signal v zgodovini interakcije kupcev z banko. In dejstvo, da oseba piše v socialnih omrežjih, z mačkami in lupinami, je bistveno bolj razkrita informacije. Drugič, naloga primerjave stranke banke in profila v socialnem omrežju je precej zapletena. Nihče ni dolžan napisati svojega imena v socialnih omrežjih, tudi če ne upoštevate istih imen.

Toda v splošnem razumevanju so potrebni veliki podatki, da se naučijo dati odgovore na široko paleto različnih podatkov.
Problem velikih podatkov je, da je v pričakovanju rezultata pričakovanje mehanizma mešano. Stranka meni, da bomo pogledali kristalno žogo in recimo, kdo bo ponudil posojilo ali depozit. Toda to se ne zgodi. Potrebujemo določene podatke.

Ali Yandex nima kristalne žoge?
Ne, niti ne poskušamo proizvajati. Veliki podatki so matematika. Imamo primere, kako se ljudje obnašajo. Našli smo vzorce ali splošne ponavljajoče se vzorce - in dodelijo nedokončane. Vidimo, da je oseba sprejela korake A, B, in prevzela posojilo. In potem najdemo tiste, ki so vzeli korake A in B, vendar še ne. Torej, trenutek je prišel, ko lahko naredi ponudbo. To je dokaj formalni matematični proces. In hkrati, kaj je pomembno, lahko dajemo dobro napoved, vendar ne razumem, zakaj je točno. Veliki podatki so črna škatla, ki deluje z merljivo kakovostjo.

To pomeni, da verjamete, ne želite?
Ne, to je slaba ideja. Morate izmeriti vse. Vedno mora biti dve skupini - en nadzor, drugi deluje. In primerjajte, ali tehnologija daje učinek in ali je pozitivna. Potem vam ni treba sprejemati odločitev na podlagi prepričanja ali vere v tehnologijo. Poročilo za teden bo prikazalo razliko v prodaji v kontrolni skupini in ostalih. Poleg tega je lahko en teden povečal za 5%, naslednji - 6%, po enem tednu pa se bo prodaja zmanjšala za 2%. Torej, morate nekaj spremeniti.

Toda skeptiki lahko rečejo, da je na podlagi velikih podatkov mogoče sklepati, da ljudje v zelenih hlačah in z velikimi ušesi kupujejo bolje, vendar bo v resnici popoln neumnosti.
Prav. Zato merimo učinek. Merden učinek ni vedno spremljano s podrobnim razumevanjem mehanizma. Na primer, farmakologija je tako urejena - eksperiment se izvede dokazuje, da zdravilo deluje na veliki skupini ljudi. In potem ljudje vzamejo zdravila, ne razumejo, kaj se jim dogaja v telesu.

Kateri drugi poslovni procesi se lahko opisujejo iz velikih podatkovnih zdravil?
Veliko jih je. Na primer, zvestoba. Ta naloga je širša od navzkrižnega in navzgor. Ampak tukaj lahko, namesto da izlijemo vse darove, izberite tiste, ki jim bodo resnično vplivali. Na primer, popust v višini 2% vsem - to je precej šibki motivator. Hkrati pa je nemogoče dati 10%, ker bo podjetje izgubilo preveč denarja. Ampak, če se osredotočamo samo na tiste, ki, prvič, izgubi zvestobo, in drugič, je mogoče obresti - in 10% jih je mogoče ponuditi. Na primer, v enem od naših projektov model, ki gradi z velikimi podatki, napoveduje verjetnost, da bo stranka pustila, 20% bolj natančnejša od uporabljenega modela. Zdaj se morate osredotočiti na izbrane kupce. Za oceno končnega učinka. Čas je potreben - zdaj je praktično testiranje, ki še ni končano.

Vprašanje je, kako izmeriti učinkovitost velikih podatkov, in si prizadeva za nič?
Prvič, če je to storitev, je njena gospodarska učinkovitost lahko položena v SLA-Zmanjšanje na ravni storitev. Bodite prepričani, da je povečanje prodaje v zvezi s kontrolno skupino. To niso kapitalski izdatki, ampak operativni: brez prodaje - brez denarja. Vendar je jasno, da s časom model razgradi, čeprav v primeru velikih podatkov, saj so podatki večji, je poslabšanje počasnejše kot s preprosto ekstrapolacijo. Zato mora biti storitev moderjena model. Ponavadi opravljeno enkrat četrt. Enako enako načelo uporablja Yandex v iskanju - nenehno izboljševanje algoritmov, čeprav je neopazno za ljudi.

In v Sking in boj proti Frodomu se uporabljajo veliki podatki?
Problem je, da banke dejansko ne želijo deliti svojih notranjih podatkov. Enako z Frodom - Banke se raje borijo sami. Če je stranka zlahka, se lahko tehnologija strojne učenja uporablja tudi v takih scenarijih - glavna stvar je, da je zadostno število Podatki za analizo.

Ali lahko navedite primere nestandardnih nalog za velike podatke?
Da. Na primer, kako naročnika ne kliče kontaktnega centra. Recimo, da gre za bankomat, in ima nekakšno vprašanje. Takoj mu moramo dati odgovor. Če v ATM ni računov - kažejo, kje je še en bankomat in tako naprej. Vloga strojnega učenja temelji na analizi zgodovinskih podatkov, v kakšnih situacijah in zakaj ljudje kličejo v klicni center - da pokličete same namena.

In ko bo po vašem mnenju ustvarjena umetna inteligenca?
Spodnja vrstica je, da je bil preskus standardnega turiranja opravljen, in avtomobili so že dolgo uporabljeni za reševanje posameznih intelektualnih nalog - igrajo šah in ne samo. Vendar pa še ni razloga, da bi domnevali, kdaj in kot umetno inteligenco v splošnem občutku besede bo ustvarjena. S praktičnega vidika je ravno rešitev posameznih intelektualnih nalog.

Vrne statistične podatke za vsak dan določenega obdobja vračanja statistike za vsak dan oddelka

Pozornost.

Ta metoda je zastarela in bo kmalu onemogočena. Uporabite različico API.

Za informacije o združljivosti metod med različicami Live 4 in 5 glejte Priročnik za selitev.

Omejitve.

Do 100 metodnih klicev na dan za eno samo kampanjo.

Število zahtevanih kampanj, pomnoženih s številom dni v izbranem obdobju, ne sme presegati 1000.

Statistični podatki so na voljo za tri leta pred tekočim mesecem. Na primer: 15. septembra 2016 lahko dobite podatke, ki se začnejo od 1. septembra 2013.

Vse oglaševalske akcije, navedene v isto metodo, morajo biti v isti valuti.

Novo v izvedbi Live 4

njihova Besedilom \\ t

Sprejemljive vrednosti:

Zahtevajo oglaševalske akcije v pravni valuti ")" Valuta. Vhodni parameter je potreben za oglaševalske akcije, ki uporabljajo pravo valuto.

Dodane vhodne parametre Besedilom \\ t

Valuta za uporabo v odzivu.

Sprejemljive vrednosti: RUB, CHF, EUR, KZT, poskusite, UAH, USD, byn. Vrednost se mora ujemati z valuto oglaševalske akcije; V nasprotnem primeru se s kodo vrne napaka.

Za oglaševalske akcije v enotah, bodisi izpustite parameter ali pass null.

Zahtevajo oglaševalske akcije v pravni valuti ")" Valuta. , Besedilom \\ t

Nrequineno ")"\u003e\u003e Incsevat.

, in. Besedilom \\ t

Nrequineno ")"\u003e\u003e Vključen.

Vhodni podatki.

Struktura vhodnega podatkov v JSON je prikazana spodaj.

("Metoda": "Getsummarystat", "Param": (/ * Getsummarystatrequest * / " Besedilom \\ t

Nrequiredyes ")"\u003e Udeleženci.

": [(INT) ...]," Datum začetka poročevalskega obdobja, ki se vrne statistika za (yyyy-mm-dd) .Requireds ")"\u003e Začetni datum. ": (Datum)," Končni datum obdobja poročila, ki se vrne statistika za (yyyy-mm-dd) .Requireds ")"\u003e Končni datum. ": (Datum)," Besedilom \\ t

Valuta za uporabo v odzivu.

Sprejemljive vrednosti: RUB, CHF, EUR, KZT, poskusite, UAH, USD, byn. Vrednost se mora ujemati z valuto oglaševalske akcije; V nasprotnem primeru se s kodo vrne napaka.

Za oglaševalske akcije v enotah, bodisi izpustite parameter ali pass null.

Nprequiredfor kampanja v pravni valuti ")"\u003e\u003e Valuta.

": (Vrvica)," Besedilom \\ t

Izračunajte DDV za stroške klikov v valuti, je DA / NE. Ko je vrednost DA, bodo zneski, prikazani v odgovoru, vključujejo DDV. Če je izpuščen, se predvideva.

Če je parameter valute izpuščen, se parameter, ki je prezrl.

Nrequineno ")"\u003e\u003e Incsevat.

": (Vrvica)," Besedilom \\ t

Izračunajte popust za stroške klikov v valuti, je da / ne.

Ko je vrednost DA, bo poročilo pokazalo zneske, ki vsebujejo popust (z drugimi besedami, zneski, ki se dejansko odštejejo od calanke kampanje). Ko je vrednost ne, bo poročilo prikazalo zneske, preden se uporabi popust. Če je izpuščen, se predvideva.

Opomba. Za oglaševalske akcije, ki delujejo v valuti, se popust uporablja, ko se odštejejo stroški na klik.

Če je parameter valute izpuščen, se vrednost "ne" predvideva.

Nrequineno ")"\u003e\u003e Vključen.

": (Vrvica)))

Parametri so opisani spodaj.


Parameter.	Opis.	Potrebno.
Udeleženci.	Array, ki vsebuje ID-je oglaševalskih akcij. Pozornost. Število oglaševalskih akcij, pomnoženih s številom dni v obdobju poročila, ne sme presegati 1000.	Da
Začetni datum.		Da
Končni datum.		Da
Valuta.	Valuta za uporabo v odzivu. Sprejemljive vrednosti: RUB, CHF, EUR, KZT, poskusite, UAH, USD, byn. Vrednost se mora ujemati z valuto oglaševalske akcije; V nasprotnem primeru se s kodo vrne napaka. Za oglaševalske akcije v enotah, bodisi izpustite parameter ali pass null.
Incsevat.	Izračunajte DDV za stroške klikov v valuti, je DA / NE. Ko je vrednost DA, bodo zneski, prikazani v odgovoru, vključujejo DDV. Če je izpuščen, se predvideva. Če je parameter valute izpuščen, se parameter, ki je prezrl.	Objava
Vključen.	Izračunajte popust za stroške klikov v valuti, je da / ne. Ko je vrednost DA, bo poročilo pokazalo zneske, ki vsebujejo popust (z drugimi besedami, zneski, ki se dejansko odštejejo od calanke kampanje). Ko je vrednost ne, bo poročilo prikazalo zneske, preden se uporabi popust. Če je izpuščen, se predvideva. Opomba. Za oglaševalske akcije, ki delujejo v valuti, se popust uporablja, ko se odštejejo stroški na klik.	Objava

Getsummarystatrequest objekt.
Parameter.	Opis.	Potrebno.
Udeleženci.	Array, ki vsebuje ID-je oglaševalskih akcij. Pozornost. Število oglaševalskih akcij, pomnoženih s številom dni v obdobju poročila, ne sme presegati 1000.	Da
Začetni datum.	Datum začetka obdobja poročila, ki se vrne statistični podatki za (yyyy-mm-dd).	Da
Končni datum.	Končni datum obdobja poročila, ki se vrne statistični podatki za (yyyy-mm-dd).	Da
Valuta.	Valuta za uporabo v odzivu. Sprejemljive vrednosti: RUB, CHF, EUR, KZT, poskusite, UAH, USD, byn. Vrednost se mora ujemati z valuto oglaševalske akcije; V nasprotnem primeru se s kodo vrne napaka. Za oglaševalske akcije v enotah, bodisi izpustite parameter ali pass null.	Za oglaševalske akcije v pravni valuti
Incsevat.	Izračunajte DDV za stroške klikov v valuti, je DA / NE. Ko je vrednost DA, bodo zneski, prikazani v odgovoru, vključujejo DDV. Če je izpuščen, se predvideva. Če je parameter valute izpuščen, se parameter, ki je prezrl.	Objava
Vključen.	Izračunajte popust za stroške klikov v valuti, je da / ne. Ko je vrednost DA, bo poročilo pokazalo zneske, ki vsebujejo popust (z drugimi besedami, zneski, ki se dejansko odštejejo od calanke kampanje). Ko je vrednost ne, bo poročilo prikazalo zneske, preden se uporabi popust. Če je izpuščen, se predvideva. Opomba. Za oglaševalske akcije, ki delujejo v valuti, se popust uporablja, ko se odštejejo stroški na klik. Če je parameter valute izpuščen, se predpostavlja vrednost "NO".	Objava

Izhodni podatki.

Postopek vrne niz statitskih predmetov. Vsak predmet vsebuje statistične podatke za eno samo kampanjo za en sam datum v izbranem obdobju.

Pozornost. Če zahtevana kampanja ni imela nobenih vtisov za oglaševalsko akcijo, se ne izvede v odgovoru.

Del vrnjenih parametrov temelji na podatkih Yandex.Metrica (glej oddelek za pomoč Yandex.Metrica: Okrepljena akcija oglaševalske akcije Vrednotenje v pomoči za neposredno).

("Podatki": [(/ * Statitem * / " ID oglaševalske akcije. ")"\u003e\u003e Upravljena. ": (int)," Statistika podatkov so predvidena. ")"\u003e\u003e Statdate. ": (Datum)," Besedilom \\ t

Skupni stroški klikov na iskanju (v valuti, določeni v parametru vhodnega valuta).

N ")"\u003e \\ t SumSearch.

": (Float)," Besedilom \\ t

N ")"\u003e \\ t Sumcontext.

": (Float)," Število vtisov v iskanju. ")" Shavessearch. ": (int)," Število prikazov v oglaševalskem omrežju YANDEX. ")" ShapsContext. ": (int)," Število klikov v iskanju. ")"\u003e\u003e ClicksSearch. ": (int)," Število klikov v oglaševalskem omrežju YANDEX. ")" ClicksContext. ": (int)," Besedilom \\ t

n ")"\u003e \\ t SessionDepthSearch.

": (Float)," Besedilom \\ t

n ")"\u003e \\ t SessionDepthNext.

": (Float)," Besedilom \\ t

Vzeto iz podatkov Yandex.Metrica in samo, če je na iskanju uporabljena samodejna strategija CPaptimizer.

n ")"\u003e \\ t GoalcoversionSearch.

": (Float)," Besedilom \\ t

Vzeto iz podatkov Yandex.Metrica, vendar le, če je avtomatska strategija CPaptimizer nameravala v oglaševalskem omrežju YANDEX.

n ")"\u003e \\ t COOLCONVersionContext.

": (Float)," Besedilom \\ t Sumcontext.

Skupni stroški klikov v oglaševalskem omrežju YANDEX (v valuti, ki je naveden v vhodnem parametru valute).

Shavessearch. ShapsContext. ClicksSearch. ClicksContext. SessionDepthSearch.

Globina seje za spletno mesto, ko kliknete iz iskanja.

Vzeto iz podatkov Yandex.Metrica in samo, če je na iskanju uporabljena samodejna strategija CPaptimizer.

SessionDepthContext.

Globina seje za spletno mesto, ko kliknete iz oglaševalskega omrežja YANDEX.

Vzeto iz podatkov Yandex.Metrica, vendar le, če je avtomatska strategija CPaptimizer nameravala v oglaševalskem omrežju YANDEX.

GoalcoversionSearch.

Odstotek obiskov cilj kot del skupnega števila obiskov pri prenosu iz iskanja.

Vzeto iz podatkov Yandex.Metrica in samo, če je na iskanju uporabljena samodejna strategija CPaptimizer.

COOLCONVersionContext.

Odstotek obiskov cilj kot del skupnega števila obiskov pri prenosu iz Yandex oglaševalskega omrežja.

Vzeto iz podatkov Yandex.Metrica, vendar le, če je avtomatska strategija CPaptimizer nameravala v oglaševalskem omrežju YANDEX.

GoldcostSearch. Sumcontext.

Skupni stroški klikov v oglaševalskem omrežju YANDEX (v valuti, ki je naveden v vhodnem parametru valute).

Shavessearch. Število vtisov v iskanju. ShapsContext. Število vtisov v oglaševalskem omrežju YANDEX. ClicksSearch. Število klikov v iskanju. ClicksContext. Število klikov v oglaševalskem omrežju YANDEX. SessionDepthSearch.

Globina seje za spletno mesto, ko kliknete iz iskanja.

Vzeto iz podatkov Yandex.Metrica in samo, če je na iskanju uporabljena samodejna strategija CPaptimizer.

SessionDepthContext.

Globina seje za spletno mesto, ko kliknete iz oglaševalskega omrežja YANDEX.

Vzeto iz podatkov Yandex.Metrica, vendar le, če je avtomatska strategija CPaptimizer nameravala v oglaševalskem omrežju YANDEX.

GoalcoversionSearch.

Odstotek obiskov cilj kot del skupnega števila obiskov pri prenosu iz iskanja.

Vzeto iz podatkov Yandex.Metrica in samo, če je na iskanju uporabljena samodejna strategija CPaptimizer.

COOLCONVersionContext.

Odstotek obiskov cilj kot del skupnega števila obiskov pri prenosu iz Yandex oglaševalskega omrežja.

Vzeto iz podatkov Yandex.Metrica, vendar le, če je avtomatska strategija CPaptimizer nameravala v oglaševalskem omrežju YANDEX.

GoldcostSearch.

Cilj za klikov iz iskanja.

Vzeto iz podatkov Yandex.Metrica in samo, če je na iskanju uporabljena samodejna strategija CPaptimizer.

GolmentContext.

Stroški doseganja cilja Yandex.Metrica za klik iz oglaševalskega omrežja YANDEX.

Vzeto iz podatkov Yandex.Metrica, vendar le, če je avtomatska strategija CPaptimizer nameravala v oglaševalskem omrežju YANDEX.

Opombe Izračunajte popust za stroške klikov v valuti, je da / ne.

Opomba. Za oglaševalske akcije, ki delujejo v valuti, se popust uporablja, ko se odštejejo stroški na klik.

Če je parameter valute izpuščen, se vrednost "ne" predvideva.

PotrebnoNa ")" Vključen. Vhodni parameter.

Stroški klikov pred nanašanjem popusta = Stroški klikov, ki se dejansko odštejejo od ravnotežja / (1 – Popust.)

Opomba. Za oglaševalske akcije, ki delujejo v valuti, se popust uporablja, ko se odštejejo stroški na klik.

Če je bila kampanja zagnana v Yandex enotah, se zneski vrnejo "kot je", brez kakršnih koli drugih konverzij.

Veliki podatki.

Samo v Parizu na konferenci Leweb Yandex je napovedala odprtje nove pomembne usmeritve svojih dejavnosti - za komercialno predelavo velikih podatkov - Yandex podatkovna tovarna.

Prepričani smo, da je obdelava velikih podatkov del novega prehoda tehnične revolucije, ki bo vse bolj učinkovita človeštvo in nas bo pripeljalo do prihodnosti, ki nas ne moremo niti uvesti na koncu. In v njem, delo z velikimi količinami podatkov, ne bo nič manj pomembna in porazdeljena kot proizvodnja električne energije ali železnic danes.

Pred javnim lansiranjem tovarne Yandexa, smo izvedli več pilotnih projektov s partnerskimi podjetji. Za podjetje, ki služi električni vod, je v Yandex Data Factory ustvaril sistem, ki analizira slike, ki so jih naredili brezpilovi in \u200b\u200bsamodejno zazna grožnje: na primer, drevesa, ki raste preblizu za žice. In za cestno agencijo je analizirala podatke o proizvodnji cest, kakovosti premaza, povprečne hitrosti prometa in nesreč. To je dovoljeno v realnem času, da bi napoved zastojev na cesti za naslednjo uro in opredelimo območja z veliko verjetnostjo nesreče.

Zdi se, da se vsakič, ko človeštvo nauči, da bi prihranili nekaj 10%, se pojavi industrijska revolucija. Pred 200 leti je začela uporabljati parni stroj. Pred sto leti, zahvaljujoč razvoju kemije, se je pojavil nov umetni materiali. Elektronika v 20. stoletju je spremenila ne le proizvodnjo, ampak tudi življenje. Ko so ljudje spoznali, da so predelovalni materiali cenejši na Kitajskem in jugovzhodni Aziji, se je vsa industrijska proizvodnja sveta preselila tam. Dejansko je 10% prihrankov svetovne premike. Analiza podatkov lahko pomaga pri proizvodnji in ekonomiji po vsem svetu učinkovitejše.

Internet ni edini kraj, kjer obstajajo veliki podatki. Zgodovinsko, v zadnjih 60-70 zadnjih stoletjih so jih geologi ustvarili. Gledal so, da se valovi iz eksplozij na površini odražajo - to je bil njihov način, da se pogledamo pod zemljo. V geološkem raziskovanju je nekaj za analizo. Pred dvema letoma smo zagotovili našo tehnologijo vzporedno računalništvo in opremo za obdelavo geoloških in geofizikalnih podatkov. Algoritmi so postali nov način, da vidimo Zemljo.

Mnogi od nas menijo, da je Wi-Fi potreben na letalih, tako da lahko uporabimo vaše naprave med leti. Toda na začetku se je internet pojavil v njih, ker je sodobno letalo na tisoče senzorjev, ki se meri ves čas njihovega leta velik znesek Kazalniki in ustvarjajo podatke. Del njih se prenese na Zemljo pred pristanek, in po njej iz letala, Terabayt disk se naloži in obdrži, ne ve, kaj storiti z vsem, kar je napisano na njem.

Če pa celo pogledate tiste podatke, ki se prenašajo med letom, lahko vnaprej napovedujejo, kateri deli, na primer, morate zamenjati z letalom. To bo prihranilo čas potnikov in virov zrakoplovov, ki izgubi 10% na izpadu zaradi nadomestnih delov. Yandex je dobesedno ulice iz strežnikov, ki porabijo 120 MW moči. In tudi takrat, ko imate na tisoče strežnikov, hkrati več sto diskov ne dela na drugem. Avto lahko napoveduje, kateri disk ne uspe, in pozove, da je treba spremeniti.

Yandex je eden redkih podjetij na svetu s potrebnimi tehnologijami in strokovnim znanjem. Iskanje po internetu je nemogoče brez strojnega učenja in zmožnosti analize podatkov. Sedaj stojijo v skoraj vseh v Yandexu - napoved napredka, statističnega prevajanja, prepoznavanja govora in slik. Sovjetska znanstvena šola je velik vpliv na oblikovanje tega. Nato smo ustvarili šolo za analizo podatkov za pripravo strokovnjakov, ki vedo, kako delati s podatki. V višji ekonomski šoli, z našo udeležbo, se je pojavila Fakulteta za računalništvo, kjer je vključevala oddelek za analizo podatkov in umetno inteligenco.

MatrixTet - Naša strojna učna tehnologija je bila prvotno ustvarjena, da bi rešila naloge razvrščanja v iskanju. Zdaj ga uporabljajo znanstveniki na CERN. En projekt je povezan z izgradnjo sistema za izbiro sistema za trčenje delcev v kolčku v realnem času. To je natančen in prilagodljiv filter, ki temelji na matrici, ki omogoča znanstvenikom, da zelo hitro delajo le zanimive in pomembne podatke o trčenjih delcev do rezervoarja, da jih uporabljajo znanstveni dokumenti. Včasih je na primer izjemno dodan podatki v 100 tisoč primerih na 100 milijard. Več kot polovica vseh znanstvenih člankov LHCB temelji le na podatkih, ki jih filtrira naš algoritem, ki temelji na matrici.

Naš drugi projekt s CERN - Optimizacija podatkovnega skladišča. Za dve leti je rezervoar ustvaril petabajte podatkov, ki so shranjeni na trdih diskih, tako da imajo znanstveniki dostop do njih. Toda kraj na HDD se že konča, in del podatkov je treba prenesti na tračne pogone. To je cenejši način shranjevanja, vendar manj prilagodljiv - ne tako enostavno iskati podatke na traku. Treba je razumeti, kateri del datotek za prenos, in kakšne vrste - oditi na trde diske. Predlagali smo CERN, da pomagajo voditi tisoče nabranih datotek na poskusih in označiti podatke, ki jih morate oditi na HDD. Tako vam bomo pomagali sprostiti več petabajtov na HDD, in to so ducate odstotkov.

Količina podatkov narašča v zelo hitri tempo. Vsak od nas nosi velik vir podatkov v vašem žepu. Senzorji postajajo cenejši, podatki na strežniku se pošljejo več in več, vprašanje pa se pojavi, kaj storiti z njimi. Zdi se nam, da če se naučimo uporabljati, in nekako delati z njimi, to je, da obstajajo možnosti za varčevanje svetovnega gospodarstva 10% sredstev. In če se to zgodi, čakamo na novo industrijsko revolucijo.

Oznake:

ydf.
yandex.
veliki podatki
strojno učenje
matrixnet.

Dodaj oznake

Komentarji 32.

Prednosti uporabe Livedde

Uporaba Livedde ponuja naslednje prednosti:

Zagotavlja, da vaš UI ujema z vašo podatkovno stanje Livedta pade vzorca opazovalca. Livedska obvesti objekte opazovalca, ko se stanje življenjskega cikla spremeni. Kodo lahko utrjujete, da posodobite UI v teh objektih opazovalca. Namesto posodabljanja UI vsakič, ko je App Data Chandate, lahko vaš opazovalec ui vsakič, ko je sprememba. Brez puščanja pomnilnika. Opazovalci so vezani na predmete življenjskega cikla in čiščenje po sebi, ko je njihov povezan življenjski cikel uničen. Ni zrušitev zaradi ustavljenih dejavnosti Če je življenjski cikel opazovalca neaktiven, kot je v primeru aktivnosti v zadnjem slogu, potem ne prejme nobenih življenjskih dogodkov. Nič več ročnega ravnanja z življenjem Komponente UI samo opazujejo ponovno polnjenje podatkov in ne prenehajte ali nadaljujte opazovanja. Livedrada samodejno upravlja vse to, saj se zavedajo ustreznih sprememb statusa življenjskega cikla med opazovanjem. Vedno posodobljene podatke Če življenjski cikel postane neaktiven, prejme najnovejše podatke, ko postanejo aktivni. Na primer, dejavnost, ki je bila v ozadju, prejme najnovejše podatke takoj po vrnitvi v ospredje. Ustrezna sprememba konfiguracije. Če se dejavnost ali fragment ponovno ustvari zaradi spremembe konfiguracije, kot je rotacija naprave, takoj prejme najnovejše razpoložljive podatke. Izmenjava virov. Objekt Livedda lahko razširite z uporabo sistema Singleton, da zaviti sistemske storitve, tako da se lahko delite v vaši aplikaciji. Objekt Livedta se enkrat povezuje s sistemom, vir pa lahko samo gleda vir, ki lahko gleda le Livedta objekt. Za več informacij glejte.

Delo z Livedskimi predmeti

Ustvarite primer Livedske, da imate določeno vrsto podatkov. To se običajno izvede v vašem razredu Viewmodel.
Ustvarite objekt opazovalca, ki definira metodo Opaz, ki nadzoruje, kaj se zgodi, ko se objekt Livedda objekt spremeni. Običajno ustvarite opazovalca v krmilniku UI, kot je dejavnost ali fragment.
Objekt opazovalca pritrdite na objekt Livedta z uporabo metode opazovanja (). Opazovalna metoda ima objekt življenjskega ciljarja. To naroča opazovalec objekt Livedtata, tako da je obveščen o spremembah. Običajno označite objekt opazovalca v krmilniku UI, kot je dejavnost ali fragment.
Opomba: Opazovalnik lahko registrirate brez povezanega predmeta Lifecycyclewer s pomočjo metode opazovanja (opazovalca). V tem primeru se šteje, da je opazovalec vedno aktiven in je vedno obveščen o spremembah. Te opazovalce lahko odstranite, ki kličejo metodo Remomobserver (opazovalca).

Ko posodobite navedel, sproži vse registrirane opazovalce, dokler je priloženi življenjski akterja v aktivnem stanju.

Livedda omogoča uporabniškim nadzornim sistemom UI, da se naročijo na posodobitve. Ko se podatki, ki jih hranijo, spremenijo podatki, ki jih hranijo objekt Livedda, se UI samodejno posodobi v odgovor.

Ustvarite predmete Livedta.

Livedda je ovoj, ki se lahko uporablja z vsemi podatki, vključno s predmeti, ki izvajajo zbirke, kot je seznam. Objekt Livedta je običajno shranjen v predmetu Viewmodel in je dostopen prek metode Getter, kot je prikazano v naslednjem primeru:

KOTLIN.

Razred NamViewmodel: Viewmodel () (// Ustvari živata z vrvico Val AreaName: mutablelioved Leni (mutalci ()) // preostali razgledni ...)

Java.

Javni razred NAMEVIEWMODEL Razširi Viewmodel (// Ustvari živata z vrvico zasebnega mutalci Trenutno ime; Javni mutalci. GetCurrenTName () (če (trenutno ime \u003d\u003d null) (trenutno ime \u003d nova mutalci (); ) Vrnitev trenutnega imena; ) // preostali razgled ...)

Na začetku se podatki v objektu Livedda ne nastavijo.

Opomba: Prepričajte se, da shranjujete Livedske objekte, ki posodabljajo UI v pogledu predmetov, v nasprotju z dejavnostjo ali fragmentom, za naslednje naslednje
Da bi se izognili napihnjenim dejavnostim in fragmentom. Zdaj so ti upravljavci UI odgovorni za prikaz podatkov, vendar ne držijo podatkovnega stanja.

Za ločevanje primerkov Livedde iz posebnih aktivnosti ali razgradnih primerov in omogočajo Liveddata objektom za preživetje konfiguracijskih sprememb.

Več o prednostih in uporabi razreda Viewmodel lahko preberete v priročniku Viewmodel.

Opazujte predmete Livedta.

Uporabite korotine z Livedo

Livedda vključuje podporo za korotine Kotlin. Če želite več informacij, glejte Uporaba Kotlin Coroutines z Android Arhitekture komponent.

Razširite Lived.

Livedda meni, da je opazovalec v aktivni državi, če je življenjski cikel opazovalca v začetku ali nadaljevanju stanja, ki je naslednja vzorčna koda prikazuje, kako razširiti razred Livedta:

KOTLIN.

Razred StockLivednata (simbol: String): Livedta () (Zasebni Val StockManager \u003d StockManager (Simbol) Private Val Poslušalec \u003d (cena: BigDecimal -\u003e Vrednost \u003d Cena) Preglasi zabavo Onactive () (StockManager.RequestPriceUpdates))

Java.

Stojalo za javni razred se razširi Lived (Zasebni StockManager StockManager; Private SimplePriceListener Poslušalec \u003d New SimplePriceListener () (@override javno void onpricechanged (setValue (cena);)); javna zaloga zaloge (String simbol) (StockManager \u003d nov Zaščiteno praznino () (StockManager.RaquestPriceUpdates (poslušalec);) @override zaščitena praznina praznina () (StockManager.RemoveUupdates (poslušalec);))

Izvajanje poslušalca cen v tem primeru vključuje naslednje pomembne metode:

Onaktivna () metoda se imenuje, ko ima objekt Livedda aktivni opazovalec. To pomeni, da morate začeti opazovati posodobitve cen delnic iz metode.
Oninaktivna () metoda se imenuje, ko je Livedda objekt nima vseh aktivnih opazovalcev. Ker nobenih opazovalcev ne posluša, ni razloga, da ostanete povezani s storitvami StockManager.
Metoda setValue (T) Posodobi vrednost primera Livedta in obvesti vse aktivne opazovalce o spremembi.

Razred stojalnega razreda lahko uporabite kot ozadje:

KOTLIN.

Preglasi zabavno Onaktivnost (SavedinStancestate: Bundle?) (SavedinStancestate) Val MyPricelistener: Livedtata \u003d ... mypricelistener.Observe (to, opazovalec (Cena: BigDecimal? -\u003e // Posodobiti UI.))))

Java.

Myfflagment javnega razreda razširja fragment (@override javno void contenticreated (savedinstancestate); Lived Mypricelistener \u003d ...; Mypricelistener.Observe (to, cena -\u003e (// posodabljanje ui.)); ))

(YDF), B2B-projekt za delo z velikimi podatki Yandexa, danes je napovedal strateško sodelovanje. Nova pobuda bo združila edinstvene metode za analizo velikih podatkov YDF in vodilne arhitekture za centre za obdelavo podatkov (podatkovni center), ki temelji na tehnologiji Intel Xeon. Strateška naloga partnerstva je pospešiti izvajanje rešitev za velike podatke med strankami. To bo podjetjem vseh tehtnic omogočilo enostavno in preprosto dobijo komercialne koristi od podatkov, zdravljenih z YDF.

YDF bo razvil in optimiziral tehnologije za zbiranje, shranjevanje in analizo velikih podatkov za arhitekturo, ki je najbolj priljubljena platforma, ki podpira široko paleto rešitev naslednje generacije. Intel bo Intel spodbujal med svojimi strankami, da bi razvil YDF kot zaupanja vrednega partnerja na področju velike analize podatkov.

Predpostavlja se, da bo sodelovanje z YDF podprlo Intel tehnologijo za podatkovni center in internet stvari, saj bodo stranke lahko upravljale in analizirale podatke, pridobljene iz različnih virov, ki se začnejo s senzorji, senzorji in prehodi in končajo z digitalnimi napravami.

Z združevanjem strategije YDF in Intel pri razvoju podatkovnih centrov ustvarjamo najučinkovitejšo rešitev za analizo velikih podatkov, "je dejal Dmitry Konash, Intel regionalni direktor v Rusiji in državah CIS. - Upamo, da bomo pospešili hitrost izvajanja velikih podatkov v industriji, tako da lahko podjetja pridobijo dodatne koristi od analize teh podatkov in pretvorbo tradicionalnih poslovnih procesov. To sodelovanje vključuje naše tehnologije za centre za obdelavo podatkov, ki se začnejo z rešitvami za računalniško računalništvo in omrežja ter končajo s sistemi za shranjevanje podatkov in varnosti podatkov, kot tudi naše internetne pobude.

Obe podjetji uporabljajo velike podatkovne rešitve, ki podpirajo razvoj strojne in programske opreme. YDF in Intel bosta izvajala skupne strategije za sklenitev trga, vključno s posebnimi programi za stranke.

Analiza velikih podatkov za poslovne odločitve je relativno nova, vendar zelo hitro razvijanje informacijskih tehnologij, ki lahko umaknejo skoraj vsako vejo gospodarstva na novo raven, Evgeny Zavalishin je poudaril, glava Yandex podatkov tovarne. - Veseli smo, da sodelujemo z Intel na tej stopnji, ko smer izvira, in bo skupaj spodbujala koristi koncepta velikih podatkov za korporativne uporabnike.