熱門(mén)文章
相關(guān)文章
人工智能:什么是強(qiáng)化學(xué)習(xí)?
發(fā)布時(shí)間:2018-10-12 分類:交通百科
強(qiáng)化學(xué)習(xí)是AI人工智能中討論、跟蹤和考慮最多的話題之一,因?yàn)樗锌赡芨淖兇蠖鄶?shù)業(yè)務(wù)。在本文中,我想提供一個(gè)簡(jiǎn)單的指南,解釋強(qiáng)化學(xué)習(xí),并給出一些如何使用強(qiáng)化學(xué)習(xí)的實(shí)際示例。
什么是人工智能系統(tǒng)的強(qiáng)化學(xué)習(xí)?
強(qiáng)化學(xué)習(xí)的核心是一個(gè)概念,即最優(yōu)的行為或行動(dòng)被積極的獎(jiǎng)勵(lì)所加強(qiáng)。
就像蹣跚學(xué)步的孩子學(xué)習(xí)如何走路一樣,他們根據(jù)自己所經(jīng)歷的結(jié)果來(lái)調(diào)整自己的行為,比如,如果之前的廣義步子讓他們跌倒,那么他們就會(huì)采取較小的步驟,而機(jī)器和軟件代理則會(huì)使用強(qiáng)化學(xué)習(xí)算法,根據(jù)環(huán)境的反饋來(lái)確定理想的行為。它是機(jī)器學(xué)習(xí)的一種形式,因此是人工智能的一個(gè)分支。
根據(jù)問(wèn)題的復(fù)雜性,強(qiáng)化學(xué)習(xí)算法可以隨著時(shí)間的推移不斷適應(yīng)環(huán)境,以便在長(zhǎng)期內(nèi)最大限度地獲得回報(bào)。所以,和蹣跚學(xué)步的孩子一樣,一個(gè)在強(qiáng)化學(xué)習(xí)中學(xué)習(xí)走路的機(jī)器人會(huì)嘗試不同的方法來(lái)達(dá)到目標(biāo),得到反饋,知道這些方法有多成功,然后調(diào)整,直到達(dá)到走路的目標(biāo)為止。向前邁出一大步,機(jī)器人就會(huì)跌倒,所以它會(huì)調(diào)整步子,使其變小,以確定這是否是保持直立的秘訣。它繼續(xù)通過(guò)不同的變化學(xué)習(xí),并最終能夠走路。在這個(gè)例子中,獎(jiǎng)勵(lì)是保持直立,而懲罰是下降的?;趯?duì)機(jī)器人動(dòng)作的反饋,使機(jī)器人的最優(yōu)動(dòng)作得到加強(qiáng)。
強(qiáng)化學(xué)習(xí)需要大量的數(shù)據(jù),這就是為什么這項(xiàng)技術(shù)的第一次應(yīng)用是在模擬數(shù)據(jù)很容易獲得的領(lǐng)域,如游戲和機(jī)器人。
強(qiáng)化學(xué)習(xí)的8個(gè)實(shí)例
盡管我們還處于強(qiáng)化學(xué)習(xí)的早期階段,但有幾個(gè)應(yīng)用程序和產(chǎn)品已經(jīng)開(kāi)始依賴于該技術(shù)。公司開(kāi)始實(shí)施強(qiáng)化學(xué)習(xí)的問(wèn)題,順序決策是必要的,以及強(qiáng)化學(xué)習(xí)可以支持人類專家或自動(dòng)化的決策過(guò)程。以下是幾個(gè)例子:
1、機(jī)器人學(xué)
強(qiáng)化學(xué)習(xí)為機(jī)器人技術(shù)提供了一個(gè)“框架和一套工具”,用于難以進(jìn)行工程操作的行為。由于強(qiáng)化學(xué)習(xí)可以在沒(méi)有監(jiān)督的情況下進(jìn)行,這可以幫助機(jī)器人成倍增長(zhǎng)。
2、工業(yè)自動(dòng)化
得益于DeepMind的強(qiáng)化學(xué)習(xí)能力,谷歌能夠大幅降低其數(shù)據(jù)中心的能源消耗。最近被微軟收購(gòu)的盆景,提供了一種強(qiáng)化學(xué)習(xí)解決方案,使能源、暖通空調(diào)、制造、汽車和供應(yīng)鏈等領(lǐng)域的自動(dòng)化和“構(gòu)建智能進(jìn)入復(fù)雜和動(dòng)態(tài)系統(tǒng)”。
3、加強(qiáng)預(yù)測(cè)維護(hù)
機(jī)器學(xué)習(xí)已經(jīng)在制造業(yè)中使用了一段時(shí)間,但強(qiáng)化學(xué)習(xí)將使預(yù)測(cè)維護(hù)比現(xiàn)在更好。
4、游戲玩法
事實(shí)上,強(qiáng)化學(xué)習(xí)的第一個(gè)聲名狼藉的應(yīng)用是AlphaGo,一種機(jī)器學(xué)習(xí)算法,在圍棋游戲中戰(zhàn)勝了世界上最優(yōu)秀的人類玩家之一。目前,強(qiáng)化學(xué)習(xí)已被廣泛應(yīng)用于各種比賽中。
5、醫(yī)藥學(xué)
強(qiáng)化學(xué)習(xí)非常適合找出健康狀況和藥物治療的最佳治療方法。它也被用于臨床試驗(yàn)以及醫(yī)療保健中的其他應(yīng)用。
6、對(duì)話系統(tǒng)
由于公司收到了大量以客戶查詢、合同、聊天機(jī)器人等形式出現(xiàn)的抽象文本,采用強(qiáng)化學(xué)習(xí)的文本摘要解決方案非常令人垂涎。這些工具固有的特點(diǎn)是,隨著時(shí)間的推移,它們會(huì)變得更好。
7、個(gè)性化
無(wú)論是你消費(fèi)的媒體,是針對(duì)你的廣告,還是你應(yīng)該在網(wǎng)上商城上購(gòu)買(mǎi)的商品,在幕后都有強(qiáng)化學(xué)習(xí)算法在發(fā)揮作用,以創(chuàng)造出色的客戶體驗(yàn)。
8、自動(dòng)車輛
大多數(shù)自動(dòng)駕駛汽車、卡車、無(wú)人駕駛飛機(jī)和船只的中心都有增援算法。英國(guó)公司W(wǎng)ayve設(shè)計(jì)了一款自動(dòng)駕駛汽車,在強(qiáng)化學(xué)習(xí)的幫助下,它能在20分鐘內(nèi)學(xué)會(huì)駕駛。
由于需要重要的數(shù)據(jù)集才能使強(qiáng)化學(xué)習(xí)發(fā)揮作用,更多的公司將能夠利用強(qiáng)化學(xué)習(xí)的能力來(lái)獲取更多的數(shù)據(jù)。而且,隨著強(qiáng)化學(xué)習(xí)的價(jià)值不斷增長(zhǎng),公司將繼續(xù)投資于資源,以找出在其運(yùn)營(yíng)、服務(wù)和產(chǎn)品中實(shí)現(xiàn)該技術(shù)的最佳方式。