Log for YSITD

tag 可能會知道的 @licson @koru1130 @mmis1000 @seadog007 @lekous

pm 10:20:32

等等會有人出來說你問題沒有 well define，沒有意義，再說你不懂演算法他才懂ㄛ

..... 那你要拯救一下我嗎

你們兩個不如結婚

🌈

{1.1.1.1：3}跟{1.1.1.1：2, 1.1.1.2：2}誰比較大

{1.1.1.1: 3}

當數量偏向集中時，數量越集中分數越高，當全部都一樣時最高
當數量偏向分散時，IP 越接近分數越高

pm 10:31:55

(a, b) = (1.1.1.1, 1.1.1.2)
那 a:3 b:1 跟a:2 b:2 ㄋ

pm 10:32:13

你把

pm 10:32:21

IP 換成十進位

pm 10:32:30

他就會在某個數線上

pm 10:32:44

我覺得大概對就可以了，這種狀況接近的沒差其實

pm 10:32:45

然後求標準差四分位數之類的

pm 10:33:00

Wow 詳細

pm 10:33:04

回歸到高中統計學

pm 10:33:13

IP 本質不就是數字ㄇ

pm 10:33:22

從 0 開始

pm 10:33:23

標準差不能表達出雙峰ㄅ

pm 10:33:37

反正就是一堆數字的集中程度

pm 10:34:30

可是這要用什麼指標

pm 10:34:38

例如 192.168.0.1 是 3232235521 之類的

pm 10:34:39

我就爛我什麼都不知道(X

pm 10:35:19

https://zh.m.wikipedia.org/zh-tw/%E9%9B%86%E4%B8%AD%E8%B6%8B%E5%8A%BF

pm 10:35:33

而且這其實有個問題是 1.1.255.255跟1.2.1.1 會太近

不過應該還好

ㄅ

他們本來就很近

把他換成數線算 entropy 呢？

你是不是沒看內文

要避免的話可以先把 IP 都先對應到 /24 下

你是不是沒看內文

：(

？

pm 10:36:57

但你要先切/24ㄅ

pm 10:37:06

反正換成數線之後就回歸到高中統計ㄌ

pm 10:37:08

++

pm 10:37:14

[photo](media:AgACAgUAAx0CPZbPgAABFF5xXlUxGg_jf-oN4DXNMpuJS_X8ub8AAlyqMRvRNbFWmtWbloUBmiuaIxszAAQBAAMCAANtAAMheAQAARgE@telegram)

pm 10:37:16

先 map 到 /24

你是要貼這個ㄅ

或是你可以加權

例如 1.1.1.1: 2, 1.1.1.2: 3 換成
[16843009, 16843009, 16843010, 16843010, 16843010]
然後算 entropy，這樣可行嗎

但我覺得這寫起來很累

不行

那該怎麼辦 QQ

你先寫寫看R

我笨不會

就
把 1.2.3.4 變成 1.2.3.0

pm 10:39:02

就1.1.1.1到1.1.1.255都變成1.1.1.08

pm 10:39:08

以一個 /24 為單位去計算

Hinet：

Home ISP：

要當成嘉全啦

可是也有 cass 是 1.1.1.1 和 1.1.2.1

不能直接拿去算

這兩個很遠啊(?

這是在/22底下ㄅ

但他整排是 1.1.1.1, 1.1.2.1, 1.1.3.1, 1.1.4.1

pm 10:40:22

所以我說要從/32 /31 /30 /29

這樣加權回來

加到/16應該就行了

好主意

pm 10:40:58

然後最後取超過 50% 的區段和

pm 10:41:50

那該怎麼選 weight

pm 10:42:21

照 IP 數量應該可以

pm 10:42:23

話說可以求 python script 嗎，我感覺我沒有到非常懂 QQ
entropy 可以用 scipy.stats.entropy 算

pm 10:42:44

敗偷 OAO QQ

pm 10:42:52

我不會 scipy ayy

pm 10:44:57

我覺得大概是
scores
(a)
range = /32 (weight = 1)
把每個 IP 都 map 到 range 下
把每個 range 依照 weight 跟出現次數計算加權分數
把每個 range 得出的分數分別加回原本 IP 的得分

pm 10:45:16

(b) 找出最高的連續區間的得分

pm 10:46:00

粗略的算法 ya

try and error (

這邊的 entropy 定義是什麼ㄚ

++

或是把weight倒過來，獎勵小區間ya

pm 10:46:47

為什麼要求entrypoy

pm 10:47:52

https://en.wikipedia.org/wiki/Entropy_(information_theory)

hmm 倒過來好像比較好ㄛ

本來就應該獎勵小區間ㄅ

pm 10:48:53

見 definition

pm 10:49:12

ya
那 weight 就用 1/($range_ip_count) ㄚ

不是

我覺得你一開始問題就很怪

例如 /24 的 weight 是 1/255 之類的

pm 10:49:43

++

pm 10:49:44

你要不要先講一下你要幹嘛

pm 10:50:12

對應回來之後

pm 10:50:18

搞不好有其他更好的做法

pm 10:50:19

取平均跟標準差

pm 10:50:24

取兩個標準差內

你 PX 怎麼訂的

我們直接被你做法侷限(?

就知道集中的 IP 跟 range ㄌ

pm 10:52:25

好，我的處境是，我透過了一個方法找到了一系列可能的 malicious domain（嚴格來說是好幾個不同的 malicious domain set），但我要去驗證說我找到的 malicious domain 是對的
因為我是從一個小 set 去推廣出大 set，所以如果能證明這一包潛在 malicious domain 跟原本已知為真的 malicious domain 在同個 IP 或是足夠接近，那就比較有信心可以說他也是 malicious domain

pm 10:52:47

你講話好elite

pm 10:53:09

幹嘛不查 whois

pm 10:53:10

（

惡意網域更煩好ㄇ

會出現 subdomain

所以 whois record 不可信，我嘗試過了

pm 10:53:36

那你應該找distance啊

pm 10:53:37

：（

pm 10:53:42

++

詳細

為什麼是找整個list的entropy

不懂，求詳細

你有信心有害網域一定會大量出現ㄇ

pm 10:54:26

沒有的話你求熵或是集中程度就沒有意義

pm 10:54:48

你去算你假設的惡意IP跟現有已知惡意IP中每一筆的Distance

pm 10:54:50

現在就是有找到這種現象惹，所以我才想追下去阿 QQ

pm 10:54:59

取加權總和

pm 10:55:20

可以多迭代幾次

pm 10:55:20

可以參考OSU PP計算方法(X

pm 10:55:30

取得精確的母體資料庫 yay

pm 10:55:33

怎麼定義 distance（例如像是剛剛 map 到數線上？）以及怎麼加權

pm 10:56:01

你直接看他在/32還是/31還是/30這樣下去

pm 10:56:09

我剛剛的笨演算法應該可以給尼歸納在某個網段的 IP 集中程度的

pm 10:56:13

某種加權值

pm 10:56:18

我覺得你可以用那個試試看

可是問題就是我聽不懂 QQ

不是根本不用算IP集中程度

剛剛那個加權值就是

pm 10:56:55

我沒有要加權啊._.

pm 10:56:58

IP 分佈 + 小區間獎勵 ya

那是總和加權

那是你的什麼神秘專題嗎

還是什麼

庫

pm 10:57:30

台大 Elite

不是，我自己好奇做的

就單純突然腦袋炸出一個想法，想去驗證這想法對不對而已

好喔

欸不是，所以你們討論出結果沒（？

稍等我一下

我寫給你看

求 pseudocode / python script，後者尤佳（？

pm 10:59:41

我想說是專題我就要叫你付錢

pm 11:00:24

掛名

pm 11:00:25

沒

救我，感謝

下次遇到你請你喝飲料啦 Zzzzz

不要問我我不知道怎麼寫我只能給你剛剛我提的算法的扣www

pm 11:06:51

Dalun

github 88888?

pm 11:07:44

Dalun

好沒他只是 response time 30s 而已

distance 算法我還要改

被叫去玩牌了

不過你要的效果應該是這樣

我們不是要做兩個 object 的比較嗎

沒有很懂這是什麼意思 QQ

第一行第一組是疑似的

第二組是已知的列表

求 code

晚點

被同學叫去打牌不好拒絕QQ

就說你直接講目的會比較快（

不要想一堆奇怪解法然後叫大家幫你實現（

慟，那晚點拯救我

把ip 當成4D coordinates?

pm 11:24:44

lambda1@tg

用簡單n-mean distance 算法

pm 11:25:08

https://pastebin.com/xFv3Kgaf
不知道會不會動不知道有沒有用但是你姑且看看(

演 *

為什麼要把他當4d coonrdinate

不行

ip不是這樣運作的

你這樣

pm 11:26:27

除了 /24 /16 /8 以外

pm 11:26:29

都不會動

我理解錯了

你不是想純粹計算dispersion...

e-lite

好他們好慢

我把電腦抓來ㄌ

dist func可能要改

這樣太接近了

@s3131212 夠短夠好懂ㄅ

你要做的只剩tune function/參數

喔幹不對

！我查查

我忘記sort

為甚麼你們都會 py

pm 11:30:23

py 好麻煩

慟

你要寫 JS 我也不反對啦（？

我剛剛跑ㄌ

pm 11:31:08

我的扣會動喔

pm 11:31:16

[photo](media:AgACAgUAAx0CPZbPgAABFF8IXlU9xJMyMNM0J5lne8V-FFjMrOEAApypMRvWmLBW5si279nHqKyGbWlqdAADAQADAgADbQADNLUAAhgE@telegram)

pm 11:31:21

除了 has_key 要改掉以外 yay

pm 11:31:45

但是你的input很怪(

pm 11:32:04

ips= {"1.1.1.1": 3, "1.1.1.2": 5, "192.168.1.0":3}
Output: {'1.1.1.1': 8.4998779296875, '1.1.1.2': 11.4998779296875, '192.168.1.0': 5.9999542236328125}

pm 11:32:13

我覺得某種程度上還算有參考價值

pm 11:32:31

不是他給的東西就很怪R

pm 11:32:44

反正我做一半了(

pm 11:32:48

你應該是拿可疑去比已知

pm 11:32:52

+++

pm 11:32:59

但你只剩一個ips

pm 11:33:03

但是他可能沒有已知

pm 11:33:10

想要找出集團在哪

pm 11:33:13

之類的

有ㄅ他剛剛不就說已知了ㄇ

欸不是，你就不能給複製嗎 XD

import socket

mips = open('mips').read().strip().split('\n')
known = open('known').read().strip().split('\n')

def dist(a, b):
    def to_num(addr):
        quads = map(ord, socket.inet_aton(addr))
        return reduce(lambda x,y: x * 0x10000 + y, quads)
    return abs(to_num(a) - to_num(b))

def score_cal(oscore):
  t = 0
  for i in range(len(oscore)):
    t += oscore[i] * 0.95**i
  return t

print(mips, known)
m = dist('0.0.0.0', '255.255.255.255')

for i in mips:
  score = []
  print(i)
  for j in known:
    #print(i, j)
    score.append((m - dist(i, j))//1e15)

  #print(score)
  score.sort()
  score.reverse()
  print(score_cal(score))

pm 11:33:41