色色一区二区三区,一本大道道久久九九AV综合,国产香蕉97碰碰视频va碰碰看,综合亚洲国产2020

    <legend id="mljv4"><u id="mljv4"><blockquote id="mljv4"></blockquote></u></legend>

    <sub id="mljv4"><ol id="mljv4"><abbr id="mljv4"></abbr></ol></sub>
      <mark id="mljv4"></mark>
      大數據 > 巴菲特的Alpha:使用機器學習量化“股票基本面”

      巴菲特的Alpha:使用機器學習量化“股票基本面”

      2020-05-13 18:00閱讀(64)

      官方帳戶。 80 定量投資和機器學習編輯部 未經允許,如果我們說投資界兩個最受贊賞的大師是: 巴菲特(基本投資者)和Simmons,則禁止重印 1 前言 (定量投資者

      1

      官方帳戶。 80

      定量投資和機器學習編輯部

      未經允許,如果我們說投資界兩個最受贊賞的大師是:

      巴菲特(基本投資者)和Simmons,則禁止重印

      1

      前言

      (定量投資者)

      無論他們如何運作,其本質都是在市場上尋求超額收益,即阿爾法。

      基本投資和定量投資都有自己的特點,主要表現(xiàn)在以下幾個方面:

      概述:

      全文

      定量投資:通過數學,統(tǒng)計建模等方式,利用計算機技術選擇“高概率”事件 可以從大量的歷史數據中獲得超額收益以制定策略。

      如果我們將這兩種投資模式結合起來,就是我們所說的:

      定量

      定量:這是定量與基本的結合,意思是“定量” +“基本”,簡稱為定量投資。 當然,

      有其優(yōu)點和缺點:

      基本投資:它提供了深刻而原始的見解; 局限性是假設金融實體基于財務數據的表面價值而缺乏獨特的見解。

      定量投資:可以快速分析投資領域; 它是一小部分投資分析領域,有時會陷入追逐一直處于高位的股票,或者持有反映行為偏差的虧損股票的情況。 根據摩根士丹利(Morgan Stanley)分析,

      :在過去20年中,諸如估值,增長,質量和動量因素等因素驅動了全球股票經理相對回報的65%。

      35%的收益歸因于基本股票的選擇。 這種方法有其優(yōu)勢,但它使策略取決于市場因素,使其成為超額回報的唯一來源。

      美國銀行美林(Merrill Lynch)的alpha保證金模型就是一個例子,它是該公司基本分析師預測的定量疊加。 在過去的30年中,該模型的表現(xiàn)超過標準普爾500指數23倍。

      具有吸引人的風險/回報特征的“量化”模型Alpha Surprise模型是應用于我們的基礎研究專營權的定量學科–它使用我們的基本分析師的收益估計來篩選廉價的,超出共識的股票構想。 該模型通常以與市場相當或更低的風險水平為投資者提供誘人的相對回報,并且除了技術泡沫外,自成立以來每三年的表現(xiàn)都優(yōu)于標準普爾500指數。

      人類世界已經開始爆炸性增長,新模型中包含的數據更加豐富。 在金融世界中,軟件可以跟蹤通話記錄中的情緒,檢測高管的詞匯模式,并量化整個市場的交易情緒。

      在更大的范圍內,跟蹤和存儲數據可以揭示長期的經濟模式。 例如,購物中心停車場的衛(wèi)星圖像可以確定購物中心的銷售量等等。

      美國銀行美林證券(Merrill Lynch)于2019年進行的年度機構因素調查發(fā)現(xiàn),量子是一個關鍵趨勢:報告中的

      我們也分享了一些有趣的發(fā)現(xiàn):

      定量模型總體上變得更加復雜, 每個模型平均使用18個因子,而不是1990年代大多數模型中使用的7-8個因子。

      17%的機器學習用戶使用無監(jiān)督學習方法,例如我們常見的PCA。 強化學習的使用量最少:幾乎40%的人使用不同形式的替代數據,其中最常見的是在線數據,占替代數據用戶的30%。 僅約10%的人聲稱使用信用卡,衛(wèi)星和地理位置數據。

      讓我們使用機器學習來研究如何量化基礎!

      2

      機器學習中的

      分類

      我們將建立一個機器學習分類器來判斷股票是購買,出售還是持有。 為了確定股票或公司是否為這三種類型之一,我們將查看每家公司的季度報告。 這些季度報告包含必要的財務信息。 我們需要使用基礎分析方法來訓練我們的機器學習分類器。

      要獲取所有代碼,請參閱文章末尾的

      ;緮祿-季度數據

      為了訓練分類器模型,我們需要收集大量財務季度報告。 來自中國的外部數據:

      在中國,建議使用

      風,因為它是全面的,并且財務量化因素也很深。 如果您沒有錢購買其終端機,則可以使用windquant礦機。 這是免費的。 數據與風的數據相同:

      www.windquant.com

      2。 排序數據

      dataframe如下所示:

      我們可以看到所有不同的列以及每列的對應日期。 Stockpump還提供價格信息(最高,最低),這對于我們判斷股票是購買,持有還是出售非常重要。

      我們有很多方法可以決定股票是否值得投資。 如果過去三個季度資產增加而負債減少,我們可以將其歸類為購買嗎? 或者,如果股價上漲,長期債務減少? 無論如何,我們有很多選擇來確定股票類別。 簡而言之,這是基礎分析的基礎。 基本分析我們如何在不了解基本分析的情況下從根本上分析這些季度報告? 由于我們不是巴菲特這樣的基礎專家,因此讓我們用我們自己的基礎分析方法來簡化它:基于選定季度的季度報告的

      ,觀察值從先前報告到當前選定報告的變化。 然后,查看下一個季度報告中的價格值,以查看是否存在重大價格上漲。 最后,使用當前報告包括過去報告的更改和將來報告的價格行為,以確定是否購買,持有或出售。

      根據選定季度的季度報告,觀察從上一報告到當前選定報告的值變化。 然后,查看下一個季度報告中的價格值,以查看是否存在重大價格上漲。 最后,使用當前報告包括過去報告的更改和將來報告的價格行為,以確定是否購買,持有或出售。 從本質上講,我們正在測試從上一季度到當前季度的變化是否會影響未來價格。 我們將根據先前的報告來判斷每個季度報告的執(zhí)行情況,然后觀察未來的價格趨勢。 如下圖所示:

      我們將在每個季度報告中應用此分析方法來創(chuàng)建新的基本數據。 如果該季度值得投資股票,則將對該方法進行分類。 顯然,我們不能在初始或最近的QR上使用此方法,因為分析需要過去和將來的季度報告。

      4

      清除數據

      1,創(chuàng)建分類標簽

      為了對每個季度報告進行分類,我們將盡量避免復雜化。 如果價格在下一季度急劇上漲,那就是買進。 如果跌倒了,那就賣了。 如果兩者都不存在,請繼續(xù)保持。

      以下是我們對每個季度報告的特定類別要求:

      購買:在下一季度,高價和低價的漲幅超過3%; 在下一季度,高價和低價的下降幅度為-3%或更多; 如果它們都不發(fā)生,我們可以考慮其他可能的結果,但是為了簡單起見,我們將這些條件保持不變。 我們不知道下一季度最新季度報告的價格水平,因為這是對未來的預測,這是不可能的。

      2。 季度報告

      中的基本數據如上所述。 對于我們的基本數據,我們將觀察兩個QRS來創(chuàng)建一個新值。 從先前QR到當前或當前QR的變化將以百分比變化而不是其實際值來衡量。 例如,

      假設上一季度的股票價值為1000美元。 該季度的股價現(xiàn)在為1100美元; 上漲了10%。 現(xiàn)在,讓我們用當前QR的10%替換1100的股票價值。

      ,我們對每個QR(不包括第一個QR,因為我們無法將其與不存在的事物進行比較)執(zhí)行此操作。 現(xiàn)在,每個QR在每個基本值中都有一個百分比變化。

      3,代碼

      現(xiàn)在,我們已經通過百分比變化來測量QRS,并將其標記為購買,持有或出售。 以下是通過代碼實現(xiàn)的:

      A。 導入數據集

      pickle文件是一個數據框字典,其中包含stockpull網站上每個股票代碼/公司的QR??S。

      B。 輔助功能

      c。 每個股票代碼要轉換數據

      1時要注意幾點。 為了以后訓練我們的分類模型,將DFS詞典中的所有數據幀組合為一個。

      2,由于不再需要日期,因此重置了索引。 現(xiàn)在,每行或QR都包含有關過去和將來QRS的信息,因此日期對于模型

      3不再重要。 刪除與價格相關的功能或列,以防止數據泄漏。 在常規(guī)QRS中,不包括這些功能。 最后,我們得出用于數據探索和訓練分類模型的最終DF。 接下來,為了更熟悉我們的數據,我們必須執(zhí)行一些簡單的探索性數據分析。 我們這樣做是為了更好地理解數據,并確保在轉換數據時沒有遺留物。 如您所見,

      在我們的數據中存在類不平衡問題。 這可能是一個問題,但是我們不想丟棄數據點,以使每個類等于最少數量的類。 盡管這可能是解決不平衡問題的可行方法,但我們還有其他選擇可供探索。 另一個選擇是在驗證我們的分類模型時使用不同的評估指標。 當我們進入建模階段時,我們將擴展此選項。

      數據相關性:從我們看到的結果來看,某些功能會影響類標簽的確定。 有些與股票/季度報告是否值得購買,出售或持有沒有關系。 由于我們知道QR中的某些特征對于確定類標簽并不重要,因此我們可以從數據集中刪除這些特征。 現(xiàn)在我們已經對數據進行了一些研究,我們可以繼續(xù)做更多的研究,或者轉移到特征工程,或者更具體地說,轉移到特征選擇。 特征工程是更改數據集以增強機器學習模型的過程。 有許多設計數據集特征的選項。 包括但不限于:

      創(chuàng)建交互功能。 兩個不同的特征相互作用以創(chuàng)建一個全新的特征。

      減少了特征數量。 因為我們有30