Paul C's Blog

To be funny,to grow up!

0%

M. S. Rahman, S. E. Coull和M. Wright, 《On the Limitations of Continual Learning for Malware Classification》. arXiv, 2022年8月13日. 见于: 2022年12月8日. [在线]. 载于: http://arxiv.org/abs/2208.06568

持续学习-Code03

本文结论:

CL本应该适合于恶意软件每日的进化和数量级,但是本文实验数据说明持续学习在几乎所有场景下表现都不如数据的Joint 重放。选择性重放20%~50%的数据相比联合重放,可以在达到最佳训练效果的同时节省35-50%的时间。

在域增量学习(二元分类任务里,融合数据分布的迁移,适应新域的同时,保留先前学到的知识)情景下,CL表现都很差。

在任务增量学习时,几种CL方法表现相当好。

学到的

多类别分类恶意软件时:可以基于其代码库、功能和整体结构特征。

读论文方法:在对一个领域基本了解后,专注方法时,直接去看Introduction里的作者贡献即可。

克服灾难性遗忘(catastrophic forgetting):

  • 正则化:加入正则化损失函数,惩罚重要的权重变化
  • 适应性扩张adaptive expansion
  • 重放:用具有代表性的旧数据补充每个新任务的训练数据。
    • 蒸馏损失、不遗忘学习. Learning without Forgetting
    • 生成重放。用第二个模型去学习之前任务的数据分布,从分布中产生新数据重放。生成重放在旧数据不可用或受限时特别有用。

用其他分析方法得到的辅助信息可以用来帮助恶意软件分类,如恶意软件种类、恶意行为、感染载体等,使得整个优化问题多了约束。

持续学习的训练策略

三组参数:任务间共享参数θ_s(除了分类层以外的层),先前任务参数θ_0(旧任务对应的权重和输出层),新任务参数θ_n(新任务的输出层)。

  • Joint training:所有参数一起优化,基于所有数据的训练,得到的模型被认为是最好,但训练代价大。
  • 持续学习训练:对于每个新任务n,固定θ_0,每次优化θ_s和θ_n。无须旧数据可及,因此难度高,只是训练更快,可以频繁重训练。

参数调优

层数、

隐藏单元数

激活函数

优化函数 Adam SGD

学习率

评价策略

Min指标:最弱的性能显示了一种技术可能不适合使用的程度。

处理数据集中字符串的技巧:

用于大规模多任务学习的特征哈希

Kilian Weinberger, Anirban Dasgupta, John Langford, Alex Smola, and Josh Attenberg. Feature hashing for large scale multitask learning. In International Conference on Machine Learning (ICML), pp. 1113–1120, 2009.

术语约定

持续学习:CL

恶意软件分类:MC

增量学习:incremental learning ,IL

AV-Test的 可能有害的程序 :potentially unwanted applications,PUA

本文内容

11种CL技术*2种恶意软件数据集*MC的3种(任务、类别、域)的增量学习场景下;调研MC模型遭受灾难性遗忘(catastrophic forgetting)的程度。

恶意软件:PE、Android、PDF文件、恶意URL。

采用ML去解决MC,基于一个假设,模型可以泛化到新数据。但是恶意软件和良性软件都在更新升级,导致其软件内部不稳定。

为适应数据分布随时间的迁移,模型需要经常重训练。而数据产生的太快,导致大的数据集(FSL不存在这个问题),训练困难。

VT的统计页面显示,每天接收到的新文件有近百万个。面对如此大 的数据,防病毒公司的三个选择

1)花费大代价在全体数据集上频繁的重训练

2)砍掉一些老数据,造成老病毒被复用的危险;

3)训练的不那么频繁。

4)增量学习

计算机视觉领域数据集:

MNIST, CIFAR10 and CIFAR100, and ImageNet

如何安慰别人

心理出现问题,是把一件事情扩大化,或者长期的负面情绪积累导致。

对于扩大化的事情,例如失恋后的朋友,他们往往会有三种误区:

  • 1.认为别人不是这样
  • 2.认为自己永远不会再爱了,把阶段性的结果直接预估到未来
  • 3.认为本质上是自己的原因。

安慰的三种策略:

先要共情,做好倾听,对于对方也是一种情绪的宣泄,但是共情者要保持好自己的心情。

1.安慰时不要指指点点。不要说如果我是你,而是陈述客观事实——是对方太强了。

2.疑问句的方式,指出对方经验里或者认识的人也是有幸福结果的。

3.指出对方的优点,可以在比较短的时间内获得正反馈,而非遥遥无期的大饼。

马斯洛自我实现理论

马斯洛需要层次论.

生理——安全——归属与爱——尊重——自我实现(潜力变成现实,有目标)。这个需求层次不一定前者满足了,后者才会出现。

马斯洛说:自我实现的人,任何时候都不会感到 焦虑、空虚和寂寞。

是这样,在我学习各种知识的时候,我会感觉到充实。寂寞感我已经很少再有;焦虑感会在任务被拖延后以及被父母提及未来工作后,产生一些;空虚感在我持续的浪费时间,没有目的度日时,经常感觉到。

约拿情结:在很多人心里表现为一种抵制、惧怕自身的伟大之处;回避自己的自主命运;

反思:要学的东西尽快学,至少也要下载到本地,之后可能就找不到了。

令基本模型从一开始就可以训练,在训练代数相同时,收敛更快验证损失更低!

意义:更好地了解自己,了解他人。

方法论

在对方没有察觉到的情况下,不断地重复或者强调话语、画面,声音、色彩、手部动作都可以作为暗示。

暗示要被对方的感官所觉察到,声色味触觉都可;

观察——推断——质疑——再观察。

观察一个人:行为模式+思维模式+情绪模式。

从小物件的观察出发,锻炼自己回忆细节,对其整体和局部的记忆能力,记住事实而非推论。

如何与潜意识沟通?

有意识地去强化它,让它成为习惯本能,进而再次转化为潜意识的状态。

在迷糊(困倦、醉酒)的时候,重复给自己暗示。

观察人的什么?

表情、鼻子朝向、眼球运动方式;

微表情、微反应。

习惯性动作;

语言用词(口头、书面);

配饰、房子布置;

朋友圈、昵称头像。

理论

心理结构分为 意识、前意识和潜意识。

否认:抵御由外界所引发的内心焦虑而产生的一种“心理防御”机制,人在否认时常常处于“无意识(下意识)状态”。

人的动物性/原始心智:在面对危险时,战斗或者逃跑。

1674807080349

催眠的原理指通过信息过载产生,使批判区的抑制功能失调,触发原始区战斗逃跑的反应机制,进入高暗示感受性状态,从而打开潜意识的绿色通道。

人类有一对植物神经包括交感神经和副交感神经,当我们交感神经持续兴奋的时候就会紧张并触发战斗反应,从而产生焦虑。反之,如果是副交感神经系统持续兴奋就会触发副交感神经系统兴奋,这样就会产生抑郁。

人在对未来充满不确定性,接收大量无法即时处理的信息时,容易陷入焦虑状态。在高度的焦虑状态下,潜意识会自动接替意识功能。例如:在焦虑状态下的人会觉得六神无主、慌乱、不知所措,自己的举动不受自己掌控。

人喜欢 控制感、存在感、安全感以及认同感。例如: qq空间的点赞让我获得的是一种认同感。

虎符_the_shellcode

1673151993119

明显的循环结构;从开始直接结束的特征;

1
memcpy()

Win10版本;Win32k权限提升漏洞

该漏洞是之前CVE-2021-1732漏洞补丁的绕过。CVE-2022-21882是一个本地权限提升漏洞,攻击者利用该漏洞可以在Windows 10系统上获得管理员权限、创建新的管理员账户、执行特权命令。

由dump分析入手,到漏洞原理剖析,再到漏洞的重现利用手法,最后到分析漏洞的影响函数、修补方式等,完整重现“由dump到POC”的全过程。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
//k  栈追踪
//b给出每个函数的前三个参数
kd> kb


//u Address1 Address2,反汇编选定范围内的代码
kd> u xxxDestroyWindow xxxDestroyWindow+34

//给出某个函数调用前的内容
kd> u xxxMNCancel la

//反汇编选定地址之前长度为Lnum的代码
kd> ub xxxMNCancel+121 L5
//展示某个数据结构data type里的某个名称的对象
0: kd> dt tagPOPUPMENU -d spwndPopupMenu
win32k!tagPOPUPMENU
+0x008 spwndPopupMenu : Ptr32 tagWND

xxxTrackPopupMenuEx的工作原理,熟悉界面编程的朋友都知道这是用于弹出一个Popup Menu的函数,那么在内核中它是如何工作的呢,这里笔者简单列出一下大概的工作的流程 :

(1). 创建Menu窗口对象: 根据HMENU等相关参数,创建最终弹出和展示的Menu窗口(通过xxxCreateWindowEx)

(2). 分配和初始化当前线程的MenuState结构(xxxMNAllocMenuState)

(3). 计算和设定Menu窗口的相关位置、属性等(通过FindBestPos/xxxSetWindowPos等)

(4). 进入菜单循环,展示Menu并进入等待菜单选择的循环(xxxMNLoop),在进入循环前,会通过xxxWindowEvent来“播放”一个EVENT_SYSTEM_MENUPOPUPSTART的窗口事件,这个细节会在后面用到

(5). 菜单被选择或取消,退出循环并销毁PopupMenu、Menu窗口对象和MenuState结构(xxxxxEndMenuLoop、xxxMNEndMenuState等)

姜旭平

营销的知识和方法是最重要的,工具手段是围绕目的服务的。

一.搜索引擎营销

分析客户心理->关键词->客户根据关键词能够搜索出感兴趣的内容->客户点击后目的链接是精准的链接。

客户搜索的关键词,反映出了他感兴趣的点;而他感兴趣的点,限制了他能够挑选的关键词的范围。

二.渠道和品牌

中国市场不缺客户,客户也在积极地寻找好的产品,所以重要的是渠道,让客户知道我的产品,知道我的产品的价值和利益。

为建立渠道,关键是对人性的把握,给销售方一个理由卖你的产品而非友商的产品,不一定要让利,让它方便、提供服务、好的期望和市场反应都是谈判的稻草。(例如,以前通过送网络电话,让经销商卖自家瓜子;以前的三大运营商充话费送手机也算一点,但是要注意到社会发展的趋势,服务不能满足客户需求时,随着经济的发展,客户会办理多个电话卡)

品牌:

品牌不是耳熟能详(例如恒源祥),而是一种理念的传播和价值认同。讲明白你的产品对客户的价值和利益,给客户一个购买的理由

现在的app或者网站上的锚点 ,可以收集足够多的数据,分析到客户的兴趣爱好和习惯

三.引导消费

推销当前社会已经不适用,多引导,让客户自己说服自己,自己体验到产品的价值。该买的人,一定会买。

1.人的消费习惯不易逆转,由俭入奢易。(送质量更好的茶叶;花呗都是基于这样的原理)

2.和气生财,多交朋友。(小利益的让出,会收获更大的利益。在合适的发展阶段,明白自己有多大的让利空间)

3.多问一句来引导,而不是捆绑销售,把选择权留给客户(但是这个选择空间可以特殊设计,让客户最终选择我想要的)。(例如,卖牛肉面,问一句客户要鸡蛋、小菜吗?而不是直接设计为套餐给客户,当然事无绝对,这些附加的营收,会占据流水的很大份额)

4.体验,比推荐更有杀伤力。(30天无理由退款,线下体验店基于此原理)

5.讲清楚利益和价值,客户为什么买。找到客户关心的(例如,正例:强生公司在美国讲健康,在中国讲教育;反例:没人乐意当银行的垃圾邮件接收器,成为银行VIP得不到什么好处)。

分析市场特点,找对客户关心的内容,与自己产品建立联系,没有联系也无妨,包含自己产品的内容非常重要,要和客户的兴趣点相对应,这些设计最终要实现目的:客户转化成利益

四.自媒体时代

两个特点:1.信息谁都可以发送和接收;2.会自动形成兴趣小组,群体会自动聚类;

信息:每个人都可以创造性加工,也都可以选择性接受。

病毒式/社会化营销:4I s原则:Interesting 、Interests、Innovation、interactive,用户感兴趣是前提,价值观、逆向思维是核心,观点功能方法要创新,与客户互动、给客户创造秀的机会、让客户形成社群自己发热。

典型案例:18年,Elon Mask就拿火箭发射汽车,借助社会化媒体自我宣传了;实际意义有的时候不重要,制造话题、并且话题能够和产品的特点有所融合,节省的广告费最终会是赚的。(例如:火箭的运输能力,汽车的高科技感的营造)

五.人性

凑热闹,喜欢虚假的安全感,喜欢别人设计的意义。

例如,褚橙:甄嬛体活动(蹭热度,制造热度),有一个就够了的广告词<->与男女感情建立联系,只要打印这样的包装即可,产品不重要,营造出来的价值,符合冬天各种节日里的男女的需要;符合女士爱美、追求时尚的特征即可。

六.大数据

找到客户的兴趣点,瞄准其真实需求做产品。

大量、多变、高频的数据,可以消除数据里的异常数据的干扰,获取到客户下意识的、真实的想法。

七.人力资源的思考

王雪莉

1.人力资源既是成本,也是资产。考察一个人的成本,看工资是否合适,应该拿他创造的收益-工资。同样的,作为求职者,要创造价值,给公司带来大于工资的收益

2.眼界放开。公司限制竞业会跨越很多行业,同样的,求职范围不要局限于互联网,凡是有交叉的范围都可以去试试。

3.物质激励效用递减时,当前的管理层给员工创造的是兴趣、意义、希望,让员工看到快速上升的希望。

4.每一代人有每一代人的性格特点,管理永远是对人的,让他把力气发挥正确即可。

课程链接:北大 钱铭怡教授 变态心理学

一.课程内容

Abnormal Psychology异常心理发生、发展变化的规律和原因。

  • 描述:异常表现、与正常现象的区别、障碍、预后
  • 原因:考察生物、心理、社会方面的因素
  • 治疗:途径及效果等 (心理咨询、心理治疗、临床心理学课程里重点介绍;神经解剖:神经系统疾病)

心理障碍继续加重、时间长了会变成精神病。(错,例如强迫症,需要看此人的症状表现是其他病比如分裂症的前期表现,还是仅仅为强迫症)

几个概念:

  • 神经病(neuropathy):神经系统出现障碍时表现出的疾病。例如:脊髓出现问题
  • 精神/心理障碍(mental disorders):精神分裂、心境障碍、神经症、焦虑障碍、人格障碍、社交障碍等。
  • 精神病(psychosis):患者的心理功能严重受损,自知力(例如幻听却不自知)缺失,不能应付日常生活要求并保持与现实 的接触的一组情况。例如精神分裂症。
  • psychological disorders心理障碍:偏重于说明重 性精神病、器质性精神障碍以外的那些更多地由心理原因所致的障碍

2009年,Phillips的调查就显示,中国成年人群精神障碍总现患率为17.5%;女性、40岁以上在心境障碍和焦虑障碍上都更严重;物质滥用尤其是酒依赖上,男性超过女性,农村超过城市。

2012年,《中华人民共和国精神卫生法》通过。

正常和异常的判断

1.患者自身认识,研究者主观判断;
2.社会文化传统;
3.心理测量学,以统计的视角判断离群情况,一般重点关注分布的两端;
4.病因和症状存在与否,现象学的标准(无法通过化验等精准手段判断)

Read more »

AVCLASS

三大挑战:规范化(相对于使用AV提供的完整标签而言),通用标记删除,别名检测

采取AV vendors多数投票,需要选择出一些打标签比较好的检测引擎,而检测引擎往往对于某一类准确率高,而对于另一类又比较差;也无法定量评估标签的质量。

已知某些引擎会抄袭leader引擎的标签结果。

AVCLASS可以代替聚类过程和给聚类结果打标签。

AVCLASS2

2020

Silvia Sebastián, Juan Caballero. AVClass2: Massive Malware Tag Extraction from AV Labels. In proceedings of the Annual Computer Security Applications Conference, December 2020.

AVLASS2借助VT的json可以获得下面的结果:

1
aca2d12934935b070df8f50e06a20539 33 CLASS:grayware|10,CLASS:grayware:adware|9,FILE:os:windows|8,FAM:adrotator|8,CLASS:downloader|3,FAM:zlob|2