Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4547)
  • 收藏
  • 关注

转载 LR与Sigmod函数

在使用LR时,经常用Sigmod函数来表示一个概率,为什么LR可以使用Sigmod函数呢? 首先,LR的假设只有一个,就是两个类别的特征服从均值不等、方差相等的高斯分布。为什么假设它服从高斯分布?一方面,高斯分布容易理解;另一方面,从信息论的角度看,当均值和方差已知时,高斯分布是熵最大的分布。当熵分布最大时,可以平摊风险。就如二分查找法,每次都将中间作为...

2019-09-28 08:23:00 659

转载 相似度计算

很多时候,相似度可以理解为两样物体的距离,相似度计算在数据挖掘和推荐系统中有着广泛的应用场景。例如:CF协同过滤算法中,可以利用相似度计算用户之间(User-Based)或者物品之间(Item-Based)的相似度;在利用k-means进行聚类时,判断个体所属类别,可以使用相似度计算公式计算个体到簇类中心的距离;利用KNN进行分类时,也可以利用相似度计算个体与已知类别之间...

2019-09-28 07:41:00 776

转载 K最近邻算法

一、原理 K最近邻算法(K-Nearest Neighbor, KNN)是最基本的分类算法,其基本原理是:从最近的K个邻居(样本)中,选择出现次数最多的类别作为判定类别。K最近邻算法可以理解为是一个分类算法,常用于标签的预测,如性别。实现KNN算法核心的一般思路:相似度计算——计算未知样本和每个训练样本的距离;排序——按照距离的递增关系排序;统计标签——...

2019-09-27 09:19:00 610

转载 数据离散化与Python实现

一、原理 数据离散化(也称,数据分组),指将连续的数据进行分组,使其变为一段离散化的区间。 根据离散化过程中是否考虑类别属性,可以将离散化算法分为:有监督算法和无监督算法。事实证明,由于有监督算法充分利用了类别属性的信息,所以再分类中能获得较高的正确率。常用的数据离散化方法:等宽分组等频分组单变量分组基于信息熵分组 ...

2019-09-27 08:31:00 3731

转载 数据标准化与Python实现

一、原理 数据标准化(Normalization):将数据按照一定比例进行缩放,使其落入到一个特定的小区间。数据标准化的类别:Min-Max标准化Z-Score标准化(Standard Score,标准分数)小数定标(Decimal scaling)标准化均值归一化向量归一化指数转换1、Min-Max标准化 Min-...

2019-09-27 07:58:00 321

转载 pclzip 解压的文件去掉文件夹

< ?PHP require_once('pclzip.lib.php'); $archive = new PclZip('archive.zip'); $v_list = $archive->add('dev/file.txt', ...

2019-09-26 15:33:00 238

转载 tail 命令 没有内容输出,记录一种解决

1. 没有内容输出的命令:tail - f /test/platform/jtimer.log   控制台:2. 当切换到此文件的当前路径后才有:使用:tail - f jtimer.log   转载于:https://www.cnblogs.com/mobaids/p/11590360.html...

2019-09-26 13:18:00 849

转载 注册frpc为windows服务,可在未登录用户时启动

说明:在Windows中配置启动项仅是在用户登录后运行。在登录前要启动就需要将其配置为“服务”。简介:之前介绍过如何使用frp进行端口转发和二级域名自定义,方便公司进行统一管理和监控。但在实际生产过程中,开发人员发现frpc的窗口为应用窗口,极易出现误操作而关闭应用窗口,为了解决此问题,建议将frpc注册为windows服务,方便使用。此方法使用nssm(稳定版本)工具...

2019-09-22 17:03:00 800

转载 python3接口测试之webservice接口测试第三方库选择及新手问题

一、使用python3做webervice接口测试的第三方库选择suds-jurko库,可以直接pip命令直接下载,也可以在pypi官网下载压缩包进行手动安装二、安装好后,导入Client:from suds.client import Client。发送一条请求from suds.client import Clienturl = 'http://www.webxm...

2019-09-14 13:29:00 308

转载 质数

质数在日常开发中应用不多,然而在算法中却经常出现,在此记录两种求质数的方法。1. 思路:按照定义,质数是只能被1和自身整除的数,只要循环判断即可。let isPrime = true // 假设是质数for (let i = 2; i < target; i++) { if(target%i==0){ isPrime = false; // ...

2019-09-12 21:12:00 113

转载 IDEA 热部署

第一:settings => compiler => build project automatically .第二:CTRL + SHIFT + A,输入Registry,找到并勾选compiler.automake.allow.when.app.running,直接关闭即可第三:在项目中添加依赖<dependency> <group...

2019-09-11 12:59:00 118

转载 Docker ASPNetCore https 四步教你搭建一个网站

序本教程需要有自己已经申请好的证书 ,没有证书请参照官方教程。 Docker就不多说了,咱只要知道怎么用先。环境 core:asp net core 2.2开发机:win10 LTS服务器:window server 2019 (这里应该给我一顶原谅帽) 参考:Hosting ASP.NET Core Images with Docker over HT...

2019-09-09 18:10:00 716

转载 mysql5.6.0 的存储过程 与 定时器 实例

一、写mysql存储过程应注意的几点:1、声明变量(declare)时要注意字符集,用变量存储表字段时,表字段与变量的字符编码要一致。2、mysql的字符合并不能用‘+’号,必须用concat函数。3、每个游标必须使用不同的declare continue handler for not found set done=1来控制游标的结束。实例:delimiter ...

2019-09-08 21:55:00 133

转载 本地windows 修改mysql 的root密码无效,论 127.0.0.1与 localhost,搞明白所有方式

先说我遇到的问题:  有个项目中使用了127.0.0.1来连接本地的数据库,现在要设置本地数据库的密码。于是通过cmd 窗口使用命令:#mysql -uroot -p // 已经知道原来是不设密码的,这里可以登录mysql>update mysql.user set password=password(‘mypassword’) where user=’root...

2019-09-08 11:11:00 276

转载 centos7环境下 搭建单机版zookeeper集群

感谢博主的分享:https://www.cnblogs.com/zjiacun/p/7598294.html本文修正了博主的一些细节。第一步:下载zookeeper:wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz第二步:修改配置:解压文...

2019-09-05 21:14:00 133

转载 Item协同过滤(基于Python实现)

在众多召回策略里面,基于Item与基于User(可参考:https://www.cnblogs.com/SysoCjs/p/11466424.html)在实现上非常相似。所以这里使用了跟基于User协同过滤的数据u.data。u.data数据格式(user_id, item_id, rating, timestamp)实现原理: 区别于Use...

2019-09-05 16:16:00 232

转载 Spark实现TF-IDF——文本相似度计算

在Spark1.2之后,Spark自带实现TF-IDF接口,只要直接调用就可以,但实际上,Spark自带的词典大小设置较于古板,如果设置小了,则导致无法计算,如果设置大了,Driver端回收数据的时候,容易发生OOM,所以更多时候都是自己根据实际情况手动实现TF-IDF。不过,在本篇文章中,两种方式都会介绍。数据准备: val df = ss.s...

2019-09-05 16:10:00 723

转载 User协同过滤(基于Spark实现)

项目地址:https://github.com/ChanKamShing/UserCF_Spark.git推荐系统的作业流程:召回/match(推荐引擎)-> 物品候选集 -> 过滤 -> 排序 -> 策略(保证结果多样性) -> 推荐list协同过滤CF属于第一阶段,我们常常称之为“推荐引擎”。“推荐引擎”可以有多个基准,包括:基于相似用户、基...

2019-09-05 15:45:00 210

转载 User协同过滤(基于Python实现)

项目地址:https://github.com/ChanKamShing/UserCF_python.git推荐系统的作业流程:召回/match(推荐引擎)-> 物品候选集 -> 过滤 -> 排序 -> 策略(保证结果多样性) -> 推荐list协同过滤CF属于第一阶段,我们常常称之为“推荐引擎”。“推荐引擎”可以有多个基准,包括:基于相似用户、...

2019-09-05 15:35:00 187

转载 Spark存储原理——数据写入过程

Spark数据的写入过程的入口点位doPutIterator方法。下面是一些方法的调用关系图: 在该方法中,根据数据是否缓存到内存中处理。如果不缓存到内存中,则调用BlockManager的putIterator方法直接存储到磁盘中;如果缓存到内存中,则先判断数据存储级别是否对数据进行了反序列化操作:如果设置了反序列化操作,则调用putIterato...

2019-09-05 15:25:00 201

转载 Flink的WaterMark,及demo实例

实际生产中,由于各种原因,导致事件创建时间与处理时间不一致,收集的规定对实时推荐有较大的影响。所以一般情况时选取创建时间,然后事先创建flink的时间窗口。但是问题来了,如何保证这个窗口的时间内所有事件都到齐了?这个时候就可以设置水位线(waterMark)。概念:支持基于时间窗口操作,由于事件的时间来源于源头系统,很多时候由于网络延迟、分布式处理,以及源头系统等各种...

2019-09-05 15:22:00 682

转载 Spark的TaskSetManager(任务管理器)的排序算法

Spark作业执行中,有一个步骤是给任务进行资源分配,实际上这些任务由一些任务管理器TaskSetManager负责管理,资源分配过程中,会先根据某种排序算法排好序,然后根据就近原则给任务进行资源分配。那么关于TaskSetManager的排序是根据哪个算法呢?现在就来介绍。 排序算法由两种调度策略FIFOSchedulingAlorithm和FairS...

2019-09-05 15:19:00 96

转载 SparkSql中,关于Hive表与Parquet文件的Schema转化兼容

从表Schema处理角度对比Hive和Parquet,两者主要的区别:Hive区分大小写,Parquet不区分大小写;Hive允许所有的列为空,而Parquet不允许所有列为空;基于上述两点区别,在进行Hive metastore Parquet转换为SpqrkSql Parquet时,需要将两者的结构进行一致化,其一致化规则:两者同名字段必须具有相同的数据类型,一致化后的字段必...

2019-09-05 15:17:00 488

转载 SparkSQL自定义强类型聚合函数

自定义强类型聚合函数跟自定义无类型聚合函数的操作类似,相对的,实现自定义强类型聚合函数则要继承org.apache.spark.sql.expressions.Aggregator。强类型的优点在于:其内部与特定数据集紧密结合,增强了紧密型、安全性,但由于其紧凑的特性,降低了适用性。准备employ.txt文件:Michael,3000Andy,4500...

2019-09-05 15:14:00 184

转载 SparkSQL自定义无类型聚合函数

准备数据:Michael,3000Andy,4500Justin,3500Betral,4000一、定义自定义无类型聚合函数 想要自定义无类型聚合函数,那必须得继承org.spark.sql.expressions.UserDefinedAggregateFunction,然后重写父类得抽象变量和成员方法。package com.cj...

2019-09-05 15:09:00 88

转载 RDD转DataFrame常用的两种方式

随着Spark1.4.x的更新,Spark提供更高阶的对象DataFrame,提供了比RDD更丰富的API操作,同时也支持RDD转DataFrame(下面简称“DF”),但是要注意,不是任意类型对象组成的RDD都可以转换成DF,,只有当组成RDD[T]的每一个T对象内部具有鲜明的字段结构时,才能隐式或者显示地创建DF所需要的Schema(结构信息),从而进行RDD-&gt...

2019-09-05 15:05:00 188

转载 Spark作业执行原理(六)——获取执行结果

对于Executor的计算结果,会根据结果的大小使用不同的处理策略:计算结果在(0,128MB-200KB)区间内:通过Netty直接发送给Driver终端;计算结果在[128MB, 1GB]区间内:将结果以taskId为编号存入到BlockManager中,然后通过Netty把编号发送给Driver终端;阈值可通过Netty框架传输参数设置spark.a...

2019-09-05 15:01:00 129

转载 【漏洞修复】IIS短文件名泄露漏洞

0x01.漏洞描述:  Internet Information Services(IIS,互联网信息服务)是由微软公司提供的基于运行Microsoft Windows的互联网基本服务。   Microsoft IIS在实现上存在文件枚举漏洞,攻击者可利用此漏洞枚举网络服务器根目录中的文件。   危害:攻击者可以利用“~”字符猜解或遍历服务器中的文件名,或对IIS服务器中...

2019-09-02 14:55:00 374

转载 9.1

数论题目完成2道转载于:https://www.cnblogs.com/sunxiyue/p/11444160.html

2019-09-01 22:59:00 93

转载 APICloud - 提交项目 点击右键 没有git这个选项

你们是不是也遇到过这个问题,吧项目检出来后,花了很久的时间,好不容易吧项目改完,提交的时候点击鼠标右键,发现git选项没有在里面了,找不到,但是这个问题也不是很常遇到,机率很小,下面我来告诉你们吧原因:去检查你电脑里面是不是装了有git吧之前检出的代码删了,编辑器里面的项目文件夹移除或许之前的项目你是从本地导入的,在本地删除检出,重复多几次,知道git...

2019-09-01 21:10:00 525

转载 8.29

图论II题目完成2道转载于:https://www.cnblogs.com/sunxiyue/p/11432363.html

2019-08-29 22:15:00 109

转载 pclzip PHP Notice: A non well formed numeric value encountered

在使用PHP7环境出现错误是因为现在PHP的语法检测相对严格了一点,你可以自行修改pclzip.lib.php 文件第 1837行:$v_memory_limit = trim($v_memory_limit);改为:$v_memory_limit = intval(trim($v_memory_limit));转载于:https://www.cnblogs.com...

2019-08-29 14:40:00 316

转载 8.27-8.28

图论II题目完成3道数论题目全部完成转载于:https://www.cnblogs.com/sunxiyue/p/11426813.html

2019-08-28 22:03:00 131

转载 快速专业搭建成熟的移动直播系统

一、移动直播推流端需要做哪些工作? 直播推流端即主播端,主要通过手机摄像头采集视频数据和麦克风采集音频数据,经过一系列前处理、编码、封装,然后推流到CDN进行分发。  1、采集  移动直播通过手机摄像头和麦克风直接采集音视频数据。其中,视频采样数据一般采用RGB或YUV格式、音频采样数据一般采用PCM格式。采集到的原始音视频的体积是非常大的,需要经过压缩技术处理来提高传输效率。  2、前处...

2019-08-27 01:18:09 138

转载 数论

今天看了质数相关内容。。。我是不会告诉你们我要干什么的(bushi做了三道题转载于:https://www.cnblogs.com/sunxiyue/p/11415547.html

2019-08-26 22:44:00 84

转载 linux环境变量

1. 设置环境变量的三种方式1、在/etc/profile文件中添加变量【对所有用户生效(永久的)】 注:修改文件后要想马上生效还要运行# source /etc/profile不然只能在下次重进此用户时生效2、在用户目录下的.bash_profile文件中增加变量【对单一用户生效(永久的)】每个用户都可使用该文件输入专用于自己使用的shell信息,当用户登录时,该文件仅仅执行...

2019-08-26 11:51:00 107

转载 模版字符串

模版字符串是ES6的新语法之一,使用反引号``包含字符串,具有多行,变量,函数等多种特点。如:// 字符串中嵌入变量let name = 'Jack';let str = `Hello ${name}`; // Hello Jack// 多行字符串,会保留空格和换行`In JavaScript this is not legal.`// 模版字符串中使用反引号`,...

2019-08-24 20:24:00 81

转载 索引

1. 查询优化缓存查询全表扫描索引扫描Btree 查单个数据,或者是在同一个叶子上的(不在一个叶子上会拖慢查询效率)三层,根,枝,叶B+tree 记录了相邻叶子节点的指针(双向链表)更适合查一个范围(即使数据不在一个叶子上,通过指针跳转)b*tree在枝节点做上了双向链表,优化范围查询2. 索引索引种类Btree Rtree HASH F...

2019-08-23 16:00:00 103

转载 进程管理工具-Supervisord 使用

简介Supervisor 是一个用 Python 写的进程管理工具,可以很方便的用来在 UNIX-like 系统(不支持 Windows)下启动、重启(自动重启程序)、关闭进程(不仅仅是 Python 进程)Supervisor 是一个 C/S 模型的程序,supervisord 是 server 端,supervisorctl 是 client 端1. 基本命令安装:1、su...

2019-08-22 18:32:00 347

转载 小程序 - 上传图片 裁剪图片

有的时候我们上传头像,商品图片这些的时候有的希望上传的是自己想要的图片形状,吧图片宽高固定死的话,他又会变形,比列差不多的看起来没什么区别,不固定的话,他们会宽的高的不一样,看起来完全不舒服,不美观了。所以想了个这样的办法,用这个裁剪工具,在选择图片的时候,就把图片的大小裁剪成自己想要的大小,这样就都一致了,下面我们来看看吧!wxml:<view class=...

2019-08-21 22:40:00 190

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?