一般社団法人 全国個人事業主支援協会

MEMBER メンバー

  • リモートワーク環境で必要になるマネジメント能力。

    コミュニケーション能力: チャットやビデオ通話など、デジタルツールを用いた適切なコミュニケーションスキルが必須。また、メンバーの状況や感情を理解し、適切なフィードバ[…]

  • エンジニアの能力を測る質問

    プログラミング言語: どの言語に精通していますか?その言語でどのようなプロジェクトに取り組んできましたか?

    アルゴリズムとデータ構造: 基本的なアルゴリズムやデータ構造について説明できますか?例えば、バイナリツリーやハッシュマップなど。

    ソフトウェア開発プロセス: Agile、Scrum、Waterfallなどの開発手法についてどのような経[…]

  • AI(人工知能)とエンジニアリングの今後は、技術革新が加速し続けることにより、より多くの産業や日常生活に大きな影響を与えるでしょう。エンジニア的観点から見ると、以下のようなトレンドや進展が期待されます。

    まず、AI技術の進歩により、機械学習モデルがより複雑で高度なタスクを達成できるようになります。これにより、自動運転車、ロボット工学、スマートシティなどの分野で大きなブレークスルーが起こる可能性があります。また、量子コンピ[…]

  • クロス集計
    クロス集計とは、単純集計に集計を掛け合わせ、集計内容を分析する。

    母集団から要素ごと部分部分で集計するので、標本数が減るためあまりにも少なくなって有効な統計量じゃなくなる可能性があるので注意。

    上記を踏まえてpandasのクロス集計メソッド。

    foo, bar, dull, shiny, one, two = “foo”, “bar”, “dull”, “shiny”, “one”, “two”[…]

  • pivotメソッドの一般的なバージョン。

    import datetime
    df = pd.DataFrame(
       {
             “A”: [“one”, “one”, “two”, “three”] * 6,
             “B”: [“A”, “B”, “C”] * 8,
             “C”: [“foo”, “foo”, “foo”, “bar”, “bar”, “bar”] * 4[…]

  • meltによるReshaping

    unstackより柔軟性がある縦持ち方法。早めに知っておきたかった。

    cheese = pd.DataFrame(
       {
           “first”: [“John”, “Mary”],
            “last”: [“Doe”, “Bo”],
            “height”: [5.5, 6.0],
            “weight”: [130, 150[…]

  • 列をMultiIndexとして格納するメソッドにstackがある。

    tuples = list(zip(*[[“bar”, “bar”, “baz”, “baz”, “foo”, “foo”, “qux”, “qux”], [“one”, “two”, “one”, “two”, “one”, “two”, “one”, “two”],]))
    index = pd.MultiIndex.f[…]

  • 軸ラベルを回転させてDataframeをもっと見やすくする。
    Excelのピボットテーブルと同じ機能。
    Dataframeに.pivotメソッドが用意されている。

    def unpivot(frame):
    “””
    渡されたDFのIndexとColumnsを値とともに列方向に並べる。
    “””
    N, K = frame.shape
    data = {
    “value[…]

  • Pandasの標準搭載の比較メソッドとしてcompareがある。
    df = pd.DataFrame(
    {
    “col1”: [“a”, “a”, “b”, “b”, “a”],
    “col2”: [1.0, 2.0, 3.0, np.nan, 5.0],
    “col3”: [1.0, 2.0, 3.0, 4.0, 5.0],
    },
    columns=[“col1”, “col2”, “[…]

  • CategoricalIndex
    種別系を扱う際に用意されているIndex Type。通常のSeriesへastypeで変換できる。

    from pandas.api.types import CategoricalDtype

    df = pd.DataFrame({“A”: np.arange(6), “B”: list(“aabbca”)})

    df[“B”] = df[“B”].astype(Cat[…]

  • takeメソッド
    numpyでのIndexingによる抽出メソッドtakeを利用可能。locやilocよりも高速(但し、locほど柔軟性なし)
     

    index = pd.Index(np.random.randint(0, 1000, 10))

    positions = [0, 9, 3]

    index[positions]

    index.take(positions)[…]

  • 通常のIndexと同様sort_indexを用いてソートが可能
     

    import random
    random.shuffle(tuples)
    s = pd.Series(np.random.randn(8), index=pd.MultiIndex.from_tuples([…]

  • reindex レベルを跨いで値をブロードキャスト
     
    midx = pd.MultiIndex(
    levels=[[“zero”, “one”], [“x”, “y”]], codes=[[1, 1, 0, 0], [1, 0, 1, 0]]
    )
    df = pd.DataFrame(np.random.randn(4, 2), index=midx)
    df2 = df.groupby(leve[…]

  • Cross-section
    xs()メソッドを使って、特定levelの要素を取得しやすくできる。idxを使用するよりさらに直感的。

     
    df.xs(“one”, level=”second”)
    df.xs(“bar”, level=”first”)
     
    Sliceを用いるとこのような感じ
     
    df.loc[(slice(None), “one”), :]
     
    I[…]

  • Slice

    公式ドキュメント
     

     
    セットアップ
     

    miindex = pd.MultiIndex.from_product(
    [mklbl(“A”, 4), mklbl(“B”, 2), mklbl(“C”, 4), mklbl(“D”, 2)]
    )

    micolumns = pd.MultiIndex.from_tuples(
    [([…]

  • Basic Index
    公式ドキュメントはこちら

    通常のDataframeの列指定のように df[“label”] とすることで、該当するMultiIndexのレベルの階層を取得することが出来る。

    サ[…]

  • MultiIndex
    まずは公式ドキュメントから

    arrays = [
    [“bar”, “bar”, “baz”, “baz”, “foo”, “foo”, “qux”, “qux”],
    [“one”, “two”, “one”, “two”, “one”, “two”, “one”, “two”],
    ]
    tuples = list(zip(*arrays))
    index =[…]

  • ローレンツ曲線
    ・小さい値からXとYの累積相対度数を求め、表記したグラフ。完全な平等の場合の直線と比較して、観測値の不平等を確認する。

    ジニ係数
    ・ローレンツ曲線と完全平等線の間の面積と、完全平等線以下の面積の割合。また、グラフ全体を一辺が1の正方形とすることで、ローレンツ曲線と完全平等線の間の面積の2倍と等しくなる。0~1の間をとり、大きければ大きいほど不平等な状態となっている。

    移動平均
    ・時系列デー[…]

  • 回帰直線
    ・最小二乗法を用いて、観測値との差が最小になる直線

    回帰平方和
    ・被説明変数の偏差の内、回帰直線を用いて計算される平方の総和

    残差平方和
    ・被説明変数の偏差の内、回帰直線で計算結果からの残差の総和

    総平方和
    ・偏差の平方の総和。回帰平方和と残差平方和を足した値

    回帰直線における切片(α)と傾き(β)
    ・β:共分散/分散で計算できる
    ・α:被説明変数の平均 – β説明変数の平均[…]

  • 四分位数
    ・数の範囲を最小値、第一四分位数、中央値(第二四分位数)、第三四分位数、最大値に分ける

    偏差
    ・観測値それぞれに対して平均を引いた値

    分散
    ・偏差を二乗した値の平均
     二乗の平均 – 平均の二乗でも計算できる

    標準偏差
    ・分散の平方根(ファイナンスだとリスクとして扱われる統計量)
     標準偏差を用いるのは、分散だと元の値からの二乗を用いている(平方)ので、元の値の単位へ変換するため[…]

  • さらに読み込む
一覧へ戻る