[go: up one dir, main page]

WO2021056307A1 - Systems and methods for detecting lane markings for autonomous driving - Google Patents

Systems and methods for detecting lane markings for autonomous driving Download PDF

Info

Publication number
WO2021056307A1
WO2021056307A1 PCT/CN2019/108043 CN2019108043W WO2021056307A1 WO 2021056307 A1 WO2021056307 A1 WO 2021056307A1 CN 2019108043 W CN2019108043 W CN 2019108043W WO 2021056307 A1 WO2021056307 A1 WO 2021056307A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
lane marking
mask
image patch
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/CN2019/108043
Other languages
French (fr)
Inventor
Zhen Yuan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to PCT/CN2019/108043 priority Critical patent/WO2021056307A1/en
Publication of WO2021056307A1 publication Critical patent/WO2021056307A1/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road

Definitions

  • Embodiments of the disclosure further provide a non-transitory computer-readable medium storing instruction that, when executed by one or more processors, cause the one or more processors to perform a method for generating datasets for lane marking detection.
  • the method may include receiving a predetermined labeling of an image that includes a lane marking.
  • the method may also include extracting image patches from the image, each image patch encompassing a section of the predetermined labeling.
  • the method may further include segmenting each image patch to obtain a binary mask indicative of the lane marking and assembling the binary masks corresponding to the image patches into a lane marking mask.
  • training dataset generation device 120 may further segment each image patch to obtain a binary mask indicative of the lane marking.
  • the multiple binary masks may be then assembled into an overall lane marking mask for the entire laser intensity image.
  • the binary masks may be assembled according to the relative locations of the image patches in the laser intensity image.
  • FIG. 2 illustrates a block diagram of an exemplary training dataset generation device 120 for lane marking detection, according to embodiments of the present disclosure.
  • training dataset generation device 120 may include a communication interface 202, a processor 204, a memory 206 and a storage 208.
  • training dataset generation device 120 may have different modules in a single device, such as an integrated circuit (IC) chip (e.g., implemented as an application-specific integrated circuit (ASIC) or a field-programmable gate array (FPGA) ) , or separate devices with dedicated functions.
  • IC integrated circuit
  • ASIC application-specific integrated circuit
  • FPGA field-programmable gate array
  • one or more components of training dataset generation device 120 may be located in a cloud or may be alternatively in a single location (such as inside a mobile device) or distributed locations.
  • units 240-246 of FIG. 2 may execute computer instructions to generate training datasets in lane marking detection.
  • FIG. 3 illustrates a flowchart of an exemplary method 300 for training dataset generation for lane marking detection, according to embodiments of the disclosure.
  • Method 300 may be implemented by training dataset generation device 120 and particularly processor 204 or a separate processor not shown in FIG. 2.
  • Method 300 may include steps 310-360 as described below. It is to be appreciated that some of the steps may be performed simultaneously, or in a different order than shown in FIG. 3.
  • the image patch may be transformed based on the two sample points.
  • affine transformation may be performed on the image patch to generate transformed image patch 520.
  • Affine transformation is a linear mapping method that preserves points, straight lines, and planes. Sets of parallel lines remain parallel after an affine transformation.
  • the affine transformation technique is typically used to correct geometric distortions or deformations that occur with non-ideal camera angles.
  • the affine transformation may include at least one of a identify transformation, a reflection transformation, a scale transformation, a rotate transformation, or a shear transformation.
  • assembly unit 246 may restore the binary masks by back transforming binary mask 530 image patches.
  • the back transformation may be a reverse affine transformation.
  • assembly unit 246 may restore each of the binary masks (e.g., binary mask 530) based on a size and an angle of a corresponding image patch in the image patches as depicted by restored binary mask 540.
  • assembly unit 246 may assemble the binary masks corresponding to the image patches into a lane marking mask.
  • assembly unit 246 may assemble the binary masks by fitting a linear equation based on the lane marking segments in the respective the binary masks.
  • the boundaries of the binary masks may be retouched using erosion or dilation during assembly. For example, a series of dilation operations may be performed to merge small lane marking segments in the image patches into the lane marking in the overall image. Assembly unit 246 works under the assumption that the merged lane marking should be a contiguous area without any holes inside, and the contour line of the merged lane marking shall be smooth.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Traffic Control Systems (AREA)

Abstract

A system and method for generating datasets in lane marking detection is disclosed. An exemplary method includes receiving a predetermined labeling of an image that includes a lane marking. The method may also include extracting image patches from the image, each image patch encompassing a section of the predetermined labeling. The method may further include segmenting each image patch to obtain a binary mask indicative of the lane marking and assembling the binary masks corresponding to the image patches into a lane marking mask.

Description

SYSTEMS AND METHODS FOR DETECTING LANE MARKINGS FOR AUTONAOMOUS DRIVING TECHNICAL FIELD
The present disclosure relates to systems and methods for lane marking detection, and more particularly to, systems and methods for detecting lane markings for training machine learning models used in autonomous driving.
BACKGROUND
Autonomous driving technology relies heavily on the vehicle’s ability to “see” surrounding objects and information. Such observations are made through sensors that capture images or other data descriptive of the objects and processors that automatically detect and identify the objects from the captured image/data. For example, laser intensity images are widely used, e.g., to aid autonomous driving. For example, laser intensity images provide geometric information of the roads and surroundings which is crucial for generating accurate positioning information for autonomous driving vehicles. In order to obtain accurate positioning information, the autonomous driving vehicle needs to accurately detect accurate lane marking information from the laser intensity images.
Machine learning techniques that apply neural networks are usually used to mimic the cognitive process of a driver in detecting and identifying the objects. For example, Accurate lane marking information can be captured in laser intensity images by training a model (e.g., neural network) . The model can automatically detect lane markings in input laser intensity images. Accuracy of the model depends on the quality of the training datasets. Conventional methods treat lane markings as one-dimensional straight lines, without taking into account the width or curvatures of the markings. As a result, the trained model could only detect lines from the laser intensity images, which fail to provide accurate positions of the lane markings. Therefore, a method for generating improved datasets for training the lane marking detection model is desired.
Embodiments of the disclosure address the above problems by providing methods and systems for detecting lane markings for training machine learning models used in autonomous driving detection.
SUMMARY
Embodiments of the disclosure provide a method for generating datasets for lane marking detection is disclosed. An exemplary method may include receiving a predetermined labeling of an image that includes a lane marking. The method may also include extracting image patches from the image, each image patch encompassing a section of the predetermined labeling. The method may further include segmenting each image patch to obtain a binary mask indicative of the lane marking and assembling the binary masks corresponding to the image patches into a lane marking mask.
Embodiments of the disclosure also provide a system for generating datasets for lane marking detection. An exemplary system may include a communication interface configured to receive a predetermined labeling of an image that includes a lane marking. The system may also include at least one processor. The at least one processor may be configured to extract image patches from the image, each image patch encompassing a section of the predetermined labeling. The at least one processor may also be configured to segment each image patch to obtain a binary mask indicative of the land marking. The at least one processor may further be configured to assemble the binary masks corresponding to the image patches into a lane marking mask.
Embodiments of the disclosure further provide a non-transitory computer-readable medium storing instruction that, when executed by one or more processors, cause the one or more processors to perform a method for generating datasets for lane marking detection. The method may include receiving a predetermined labeling of an image that includes a lane marking. The method may also include extracting image patches from the image, each image patch encompassing a section of the predetermined labeling. The method may further include  segmenting each image patch to obtain a binary mask indicative of the lane marking and assembling the binary masks corresponding to the image patches into a lane marking mask.
It is to be understood that both the foregoing general descriptions and the following detailed descriptions are exemplary and explanatory only and are not restrictive of the invention, as claimed.
BRIEF DESCRIPTION OF THE DRAWINGS
FIG. 1 illustrates a schematic diagram of an exemplary lane marking detection system, according to embodiments of the disclosure.
FIG. 2 illustrates a block diagram of an exemplary training dataset generation device for lane marking detection, according to embodiments of the disclosure.
FIG. 3 illustrates an exemplary flowchart for training dataset generation for lane marking detection, according to embodiments of the disclosure.
FIG. 4 illustrates an exemplary image of a road segment extracted from a laser intensity image, according to embodiments of the disclosure.
FIG. 5 illustrates a process of generating a lane marking mask, according to embodiments of the disclosure.
FIG. 6 illustrates growing a section of a predetermined labeling into an image patch, according to embodiments of the disclosure.
DETAILED DESCRIPTION
Reference will now be made in detail to the exemplary embodiments, examples of which are illustrated in the accompanying drawings. Wherever possible, the same reference numbers will be used throughout the drawings to refer to the same or like parts.
FIG. 1 illustrates a schematic diagram of an exemplary lane marking detection system 100, according to embodiments of the disclosure. As shown in FIG. 1, lane marking detection system 100 may include a training database/repository 110, a training dataset generation device 120, a model training device 130, a processing device 140, and database/repository 150. It is to  be appreciated that lane marking detection system 100 may include more or less components compared to those shown in FIG. 1. Consistent with the present disclosure, lane marking detection system 100 is configured to generate lane marking training datasets via training dataset generation device 120 from training data stored in training database/repository 110 and use the training datasets to train a lane marking detection model via model training device 130. Lane marking detection system 100 may further detect lane markings via processing device 140 from laser intensity data stored in database/repository 150 by using the lane marking detection model.
Lane markings are used on paved roadways to provide guidance and information to drivers and pedestrians. Consistent with the present disclosure, a “lane marking” may be any pavement or glued marking on a road. In some embodiments, the lane marking may divide a road into separate lanes. Generally white lane markings indicate a separation between lanes traveling in the same direction while yellow markings indicate opposing traffic on the other side of the line. For example, when the lane marking separates two lanes of the same direction, the lane marking can be a double solid line indicating that passing or lane switching is prohibited, a single solid line indicating that passing or lane switching is discouraged, or a single broken line indicating that passing or lane changing is allowed. In some embodiments, the combination of a solid line with a broken line means that passing is allowed only from the side with the broken line and prohibited from the side with the solid line. As another example, when the lane marking separates two lanes of opposite traffics, the lane marking can be a double yellow line indicating a no-passing zone, or a single yellow line indicating a passing zone. In some embodiments, the lane marking may be a crosswalk marking, such as including zebra stripes.
In some embodiments, lane marking detection system 100 may be deployed in a vehicle. Consistent with some embodiments, the vehicle may be autonomous vehicle or semi-autonomous vehicle that uses lane marking detection system 100 to detect lane markings in laser intensity images. The detection may be based on a model trained by model training device 130. In alternative embodiments, lane marking detection system 100 may be deployed in a local or  remote server for detecting lane markings in an HD map. The HD map may include a plurality of laser intensity images.
As shown in FIG. 1, training database/repository 110 may be configured to store training data that can be used for lane marking detection. In some embodiments, training database/repository 110 may be configured to store laser intensity images, the laser intensity images may be used to construct an HD map. The laser intensity images may be constructed based on sensor data received from one or more sensors (e.g., a LiDAR sensor) . For example, sensor data may be laser intensity data acquired by laser sensory units. The laser sensory units may be configured to scan ambient environment and acquire laser intensity images. The laser sensory units may illuminate a target with pulsed laser light and measure the reflected pulses with the sensor. Gray-scale laser intensity images may be constructed based on the strength of the received laser pulses reflected from the target.
Training dataset generation device 120 may be configured to fetch training data from training database/repository 110 and generate training datasets for training a model. In some embodiments, training dataset generation device 120 may fetch laser intensity images from training database/repository 110 and generate training datasets based on the laser intensity images. In some embodiments, the “training datasets” generated by training dataset generation device 120 may include laser intensity images and the corresponding ground truths of the lane markings therein. The “ground truth” information may include any characteristic that describes or identifies the lane markings captured in the laser intensity image. For example, training dataset generation device 120 may generate a lane marking mask based on a laser intensity image. Training dataset generation device 120 may further send the lane marking mask along with the corresponding laser intensity image to model training device 130 for training a lane marking detection model.
Consistent with the present disclosure, training dataset generation device 120 may receive a predetermined labeling of a laser intensity image that includes a lane marking. The  predetermined labeling may be generated using conventional methods. For example, the predetermined labeling may annotate a one-dimensional straight line to represent the lane marking. Training dataset generation device 120 may then extract image patches from the laser intensity image. Consistent with the disclosure, an “image patch” may be a sub-image that contains multiple connected pixels. An image patch may be in a square shape, a triangular shape, or another shape. In some embodiments, each extracted image patch may encompass a section of the predetermined labeling. In other words, the image patches are extracted along or near the lane marking, thus containing image pixels that are on the contour of the lane marking. In some embodiments, training dataset generation device 120 may further segment each image patch to obtain a binary mask indicative of the lane marking. The multiple binary masks may be then assembled into an overall lane marking mask for the entire laser intensity image. In some embodiments, the binary masks may be assembled according to the relative locations of the image patches in the laser intensity image.
The disclosed training dataset generation methods improve from convention methods that use a one-dimensional straight line to represent a lane marking by providing two-dimensional information of the lane marking through the lane marking mask. Consistent with some embodiments, the lane marking mask may be a binary mask. For example, the mask has a value “1” for pixels that correspond to the lane marking, and value “0” for pixels that are not. As the lane marking mask account for width, shape, curvatures, and other characteristics of the lane marking, it provides more accurate “ground truth” information of the lane marking. Accordingly, a model trained with such training data may be more reliable for lane marking detection. In addition, consistent with the present disclosure, training dataset generation device 120 uses the predetermined labeling of the lane marking as guidance to locate image patches that potentially contain sections of the lane marking. Training dataset generation device 120 then zooms in on these relevant image patches and determines the mask of the lane marking within the image patches. As a result, the lane marking mask containing two-dimensional information of the lane  marking may be identified efficiently as only a subset of areas in the laser intensity images need to be processed.
Modeling training device 130 may be configured to receive training datasets from training dataset generation device 120 and train a lane marking detection model based on the training datasets. As used herein, “training” a model refers to determining one or more parameters of the model. For example, the model may include at least one filter or kernel. One or more parameters, such as kernel weights, size, shape, and structure, of the at least one filter may be determined by at least one of a backpropagation-based training process or a forward-propagation based training process. Consistent with some embodiments, the model may be trained based on supervised, semi-supervise, or non-supervised methods.
In some embodiments, the model may be a neural network, such as a convolutional neutral network (CNN) , or a recurrent neutral network (RNN) . For example, a neural network may have an architecture that includes a stack of distinct layers that transform the input (e.g., laser intensity images) into the output (e.g., lane marking mask) . Consistent with some embodiments, a CNN network may include one or more convolution layers or fully-convolutional layers, non-linear operator layers, pooling or subsampling layers, fully connected layers, and/or final loss layers. Each layer of the CNN network produces one or more feature maps. A deep neural network refers to a network that has a large number of layers, such as over 30 layers. Deep learning typically implements max pooling that is designed to capture invariance in image-like data and could lead to improved generalization and faster convergence, thus is more effective for tasks such as image processing, e.g., detecting lane markings in a laser intensity image.
In some embodiments, the trained model may be used by processing device 140 to detect lane markings in a laser intensity image stored in dataset/repository 150. For example, a laser intensity image may be input to processing device 140. Processing device 140 may recognize  lane markings in the laser intensity image via the trained model and annotate the lane markings accordingly.
In some embodiments, certain components of lane marking detection system 100 may be implemented by a single device. For example, training dataset generation device 120 and model training device 130 may be implemented as one device. As another example, model training device 130 and processing device 140 may be implemented as one device. In some embodiments, the model training may be performed in real-time by model training device 130 just prior to the lane marking detection by processing device 140. In some embodiments, the model may be trained “offline, ” at a time unrelated to the lane marking detection, and stored for later use.
FIG. 2 illustrates a block diagram of an exemplary training dataset generation device 120 for lane marking detection, according to embodiments of the present disclosure. As shown in FIG. 2, training dataset generation device 120 may include a communication interface 202, a processor 204, a memory 206 and a storage 208. In some embodiments, training dataset generation device 120 may have different modules in a single device, such as an integrated circuit (IC) chip (e.g., implemented as an application-specific integrated circuit (ASIC) or a field-programmable gate array (FPGA) ) , or separate devices with dedicated functions. In some embodiments, one or more components of training dataset generation device 120 may be located in a cloud or may be alternatively in a single location (such as inside a mobile device) or distributed locations. Components of training dataset generation device 120 may be in an integrated device or distributed at different locations but communicate with each other through a network (not shown) . Consistent with the present disclosure, training dataset generation device 120 may be configured to generate training datasets based on sensor data (e.g., laser intensity images) fetched from training database/repository 110. The generated datasets may be used as training datasets by model training device 130 for training a lane marking detection model.
Communication interface 202 may send data to and receive data from components such as training database/repository 110 or model training device 130 via communication cables, a Wireless Local Area Network (WLAN) , a Wide Area Network (WAN) , wireless networks such as radio waves, a cellular network, and/or a local or short-range wireless network (e.g., Bluetooth TM) , or other communication methods. In some embodiments, communication interface 202 may include an integrated service digital network (ISDN) card, cable modem, satellite modem, or a modem to provide a data communication connection. As another example, communication interface 202 may include a local area network (LAN) card to provide a data communication connection to a compatible LAN. Wireless links can also be implemented by communication interface 202. In such an implementation, communication interface 202 can send and receive electrical, electromagnetic or optical signals that carry digital data streams representing various types of information.
Consistent with some embodiments, communication interface 202 may receive laser intensity images from training database/repository 110. Each laser intensity image may be received with a predetermined labeling, e.g., a one-dimensional straight line, indicating the lane marking therein. Communication interface 202 may further provide the received laser intensity images to memory 206 and/or storage 208 for storage or to processor 204 for processing. In some embodiments, communication interface 202 may be configured to send training datasets generated by training dataset generation device 120 to model training device 130 for training a lane marking detection model.
Processor 204 may include any appropriate type of general-purpose or special-purpose microprocessor, digital signal processor, or microcontroller. Processor 204 may be configured as a separate processor module dedicated to generating datasets based on laser intensity images received from communication interface 202. Alternatively, processor 204 may be configured as a shared processor module for performing other functions in addition to training dataset generation.
Memory 206 and storage 208 may include any appropriate type of mass storage provided to store any type of information that processor 204 may need to operate. Memory 206 and storage 208 may be a volatile or non-volatile, magnetic, semiconductor, tape, optical, removable, non-removable, or other type of storage device or tangible (i.e., non-transitory) computer-readable medium including, but not limited to, a ROM, a flash memory, a dynamic RAM, and a static RAM. Memory 206 and/or storage 208 may be configured to store one or more computer programs that may be executed by processor 204 to perform functions disclosed herein. For example, memory 206 and/or storage 208 may be configured to store program (s) that may be executed by processor 204 to generate training datasets that contain lane marking masks based on laser intensity images received from communication interface 202.
In some embodiments, memory 206 and/or storage 208 may be configured to store input and output data of training dataset generation device 120, such as laser intensity images, and training datasets (e.g., including lane marking masks) generated based on the laser intensity images. In some embodiments, memory 206 and/or storage 208 may be configured to store intermediate data generated during the process of generating the training dataset, such as image patches containing sections of the lane marking and the binary masks as a result of segmenting the image patches.
As shown in FIG. 2, processor 204 may include multiple modules, such as an extraction unit 240, a segmentation unit 242, a restoration unit 244, and an assembly unit 246. These modules (and any corresponding sub-modules or sub-units) can be hardware units (e.g., portions of an integrated circuit) of processor 204 designed for use with other components or software units implemented by processor 204 through executing at least part of a program. The program may be stored on a computer-readable medium, and when executed by processor 204, it may perform one or more functions. Although FIG. 2 shows units 240-246 all within one processor 204, it is contemplated that these units may be distributed among different processors located closely or remotely with each other.
In some embodiments, units 240-246 of FIG. 2 may execute computer instructions to generate training datasets in lane marking detection. For example, FIG. 3 illustrates a flowchart of an exemplary method 300 for training dataset generation for lane marking detection, according to embodiments of the disclosure. Method 300 may be implemented by training dataset generation device 120 and particularly processor 204 or a separate processor not shown in FIG. 2. Method 300 may include steps 310-360 as described below. It is to be appreciated that some of the steps may be performed simultaneously, or in a different order than shown in FIG. 3.
In step 310, communication interface 202 may receive a predetermined labeling of an image that includes a lane marking from training database and/or repository 110. In some embodiments, the image may be a laser intensity image stored in training database and/or repository 110. Consistent with some embodiments, the laser intensity image may include one or more lane markings. The lane markings may be labeled by the predetermined labeling. In some embodiments, the predetermined labeling may be manually annotated by an operator. In some embodiments, the predetermined labeling may be automatically determined using, e.g., conventionally image processing methods. For example, the predetermined labeling may include a line or a polygon (e.g., a triangle, a square, a rectangle) . Consistent with some embodiments, the image may be a sub-image of a road segment extracted from a laser intensity image. For example, FIG. 4 illustrates an exemplary image 410 of a road segment extracted from a laser intensity image, according to embodiments of the disclosure. As shown in the figure, image 410 may include one or more lane marking segments 411-415, as part of a broken line marking. The lane marking may include a predetermined labeling, such as a predetermined labeling 416. It should be noted that the lane marking and predetermined labeling 416 is merely provided for the purposes of illustration. Other types of lane marking, e.g., solid line marking, double solid line marking, etc. may be used. Other geometric shapes such as polygons may also be used as the predetermined labeling in accordance with some embodiments.
In step 320, extraction unit 240 may extract image patches from the image, where each image patch may encompass a section of the predetermined labeling. In some embodiments, extraction unit 240 may extract image patches along or near the predetermined labeling such that it includes a section of the predetermined labeling. FIG. 5 illustrates a process of generating a binary mask of an image patch, according to embodiments of the disclosure. Referring to FIG. 5, image patch 510 may include a predetermined labeling segment 512. In some embodiments, image patches may be of a particular size, such as 64 x 64.
In some embodiments, image patch 510 may be extracted by growing a segment of the predetermined labeling (e.g., predetermined labeling segment 512) . For example, FIG. 6 illustrates growing a section of a predetermined labeling into an image patch 640, according to some embodiments of the present disclosure. As shown in FIG. 6, lane marking 610 may be labeled by a predetermined labeling 620, predetermined labeling 620 may include two  adjacent sample points  621 and 622 for labeling two ends of a segment of lane marking 610. Extraction unit 240 may generate a line 630 connecting  sample points  621 and 622 by calculating a linear equation or fitting a line based on the coordinates of the two sample points. Extraction unit 240 may expand line 630 in its normal direction (i.e., the direction perpendicular to the direction of line 630) such that line 630 gains a width. Accordingly, a rectangular box 640 may be generated. Extraction unit 240 then crop the image pixels within the rectangular box 640 from the image to become the image patch. It is contemplated that image patches of different shapes may be extracted based on predetermined labeling 620 by growing line 630 in different or additional directions.
In some embodiments, the image patch may be transformed based on the two sample points. For example, affine transformation may be performed on the image patch to generate transformed image patch 520. Affine transformation is a linear mapping method that preserves points, straight lines, and planes. Sets of parallel lines remain parallel after an affine transformation. The affine transformation technique is typically used to correct geometric  distortions or deformations that occur with non-ideal camera angles. In some embodiments, the affine transformation may include at least one of a identify transformation, a reflection transformation, a scale transformation, a rotate transformation, or a shear transformation.
In step 330, segmentation unit 242 may segment each image patch to generate a binary mask indicative of the lane marking. In some embodiments, segmentation unit 242 may segment a transformed image patch (e.g., transformed image patch 520) to generate a segmented image patch, for example segmented image patch 530. In some embodiments, a thresholding image segmentation method may be performed on image patch 520. For example, an Otsu’s method may be used. Otsu’s method performs clustering-based image thresholding to reduce a grayscale image to a binary image. The algorithm assumes that the image contains two classes of pixels following bi-modal histogram (foreground pixels and background pixels) , it then calculates the optimum threshold separating the two classes so that their combined spread (intra-class variance) is minimal, or equivalently (because the sum of pairwise squared distances is constant) , so that their inter-class variance is maximal. The segmentation generates a binary mask 530 for the image patch.
In some embodiments, assembly unit 246 may restore the binary masks by back transforming binary mask 530 image patches. The back transformation may be a reverse affine transformation. For example, assembly unit 246 may restore each of the binary masks (e.g., binary mask 530) based on a size and an angle of a corresponding image patch in the image patches as depicted by restored binary mask 540.
In step 340, assembly unit 246 may assemble the binary masks corresponding to the image patches into a lane marking mask. In some embodiments, assembly unit 246 may assemble the binary masks by fitting a linear equation based on the lane marking segments in the respective the binary masks. In some embodiments, the boundaries of the binary masks may be retouched using erosion or dilation during assembly. For example, a series of dilation operations may be performed to merge small lane marking segments in the image patches into the lane  marking in the overall image. Assembly unit 246 works under the assumption that the merged lane marking should be a contiguous area without any holes inside, and the contour line of the merged lane marking shall be smooth. As such, assembly unit 246 may perform erosion or dilation to fill the hole inside an otherwise contiguous lane marking by re-classifying any pixel that is classified as not part of the lane marking. Assembly unit 246 may also re-classify any pixel at the boundaries of the image patches to ensure the lane marking segments are merged naturally.
In step 350, processor 204 may apply a filter on the merged lane marking mask to reduce noise. The filter may include at least one of a mean filter, a median filter, a Gaussian smoothing filter, a conservative smoothing filter, a Crimmins speckle removal filter, a frequency filter, a Laplacian of Gaussian filter, or a unsharp filter.
In step 360, processor 204 may send the lane marking mask to a model training device (e.g., model training device 130) . The model training device may use the lane marking mask as training datasets for training a model for detecting lane markings in laser intensity images.
It will be apparent to those skilled in the art that various modifications and variations can be made to the disclosed system and related methods. Other embodiments will be apparent to those skilled in the art from consideration of the specification and practice of the disclosed system and related methods.
It is intended that the specification and examples be considered as exemplary only, with a true scope being indicated by the following claims and their equivalents.

Claims (20)

  1. A method for generating datasets for lane marking detection, comprising:
    receiving a predetermined labeling of an image that includes a lane marking;
    extracting image patches from the image, each image patch encompassing a section of the predetermined labeling;
    segmenting each image patch to obtain a binary mask indicative of the lane marking; and
    assembling the binary masks corresponding to the image patches into a lane marking mask.
  2. The method of claim 1, wherein extracting the image patches from the image further comprises:
    generating each image patch based on two adjacent points on the predetermined labeling.
  3. The method of claim 1, further comprising:
    performing an affine transformation on each image patch before segmenting the image patch;
    restoring each binary mask; and
    assembling the restored binary masks into the lane marking mask.
  4. The method of claim 2, wherein generating each image patch further comprises:
    fitting a line based on the two adjacent points; and
    generating each image patch by expanding the line in a normal direction.
  5. The method of claim 1, wherein each image patch is segmented based on Otsu segmentation.
  6. The method of claim 3, wherein each binary mask is restored based on a size and an angle of a corresponding image patch in the image patches.
  7. The method of claim 1, the method further comprising applying a filter on the lane marking mask to reduce noise.
  8. The method of claim 1, the method further comprising training a lane marking detection model using the lane marking mask as training data.
  9. The method of claim 1, wherein assembling the binary masks further comprises retouching the binary masks based on dilation or erosion.
  10. The method of claim 1, wherein the image is a part of a high-definition map that is acquired by a LiDAR sensor.
  11. A system for generating datasets for lane marking detection, comprising:
    a communication interface configured to receive a predetermined labeling of an image that includes a lane marking; and
    at least one processor configured to:
    extract image patches from the image, each image patch encompassing a section of the predetermined labeling;
    segment each image patch to obtain a binary mask indicative of the land marking; and
    assemble the binary masks corresponding to the image patches into a lane marking mask.
  12. The system of claim 11, wherein to extract the image patches from the image, the at least one processor is further configured to:
    generate each image patch based on two adjacent points on the predetermined labeling.
  13. The system of claim 11, wherein, the at least one processor is further configured to:
    perform an affine transformation on each image patch before segmenting the image patch;
    restore each binary mask; and
    assemble the restored binary masks into the lane marking mask.
  14. The system of claim 12, wherein to generate each image patch, the at least one processor is further configured to:
    fit a line based on the two adjacent points; and
    generate each image patch by expanding the line in a normal direction.
  15. The system of claim 11, wherein each image patch is segmented based on Otsu segmentation.
  16. The system of claim 13, wherein each binary mask is restored based on a size and an angle of a corresponding image patch in the image patches.
  17. The system of claim 11, wherein the at least one processor is further configured to apply a filter on the lane marking mask to reduce noise.
  18. The system of claim 11, wherein the at least one processor is further configured to train a lane marking detection model using the lane marking mask as training data.
  19. The system of claim 11, wherein to assemble the binary masks, the at least one processor is further configured to retouch the binary masks based on dilation or erosion.
  20. A non-transitory computer-readable medium having instructions stored thereon that, when execute by one or more processors, cause the one or more processors to perform a method for generating datasets for lane marking detection, the method comprising:
    receiving a predetermined labeling of an image that includes a lane marking;
    extracting image patches from the image, each image patch encompassing a section of the predetermined labeling;
    segmenting each image patch to obtain a binary mask indicative of the lane marking; and
    assembling the binary masks corresponding to the image patches into a lane marking mask.
PCT/CN2019/108043 2019-09-26 2019-09-26 Systems and methods for detecting lane markings for autonomous driving Ceased WO2021056307A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/108043 WO2021056307A1 (en) 2019-09-26 2019-09-26 Systems and methods for detecting lane markings for autonomous driving

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/108043 WO2021056307A1 (en) 2019-09-26 2019-09-26 Systems and methods for detecting lane markings for autonomous driving

Publications (1)

Publication Number Publication Date
WO2021056307A1 true WO2021056307A1 (en) 2021-04-01

Family

ID=75166286

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/108043 Ceased WO2021056307A1 (en) 2019-09-26 2019-09-26 Systems and methods for detecting lane markings for autonomous driving

Country Status (1)

Country Link
WO (1) WO2021056307A1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350603A1 (en) * 2015-05-28 2016-12-01 Tata Consultancy Services Limited Lane detection
CN106228125A (en) * 2016-07-15 2016-12-14 浙江工商大学 Method for detecting lane lines based on integrated study cascade classifier
CN109325386A (en) * 2017-07-31 2019-02-12 株式会社理光 Lane line detection method, device and computer readable storage medium
CN110073362A (en) * 2017-01-04 2019-07-30 高通股份有限公司 System and method for lane markings detection
CN110147698A (en) * 2018-02-13 2019-08-20 Kpit技术有限责任公司 System and method for lane detection
WO2019168869A1 (en) * 2018-02-27 2019-09-06 Nvidia Corporation Real-time detection of lanes and boundaries by autonomous vehicles

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350603A1 (en) * 2015-05-28 2016-12-01 Tata Consultancy Services Limited Lane detection
CN106228125A (en) * 2016-07-15 2016-12-14 浙江工商大学 Method for detecting lane lines based on integrated study cascade classifier
CN110073362A (en) * 2017-01-04 2019-07-30 高通股份有限公司 System and method for lane markings detection
CN109325386A (en) * 2017-07-31 2019-02-12 株式会社理光 Lane line detection method, device and computer readable storage medium
CN110147698A (en) * 2018-02-13 2019-08-20 Kpit技术有限责任公司 System and method for lane detection
WO2019168869A1 (en) * 2018-02-27 2019-09-06 Nvidia Corporation Real-time detection of lanes and boundaries by autonomous vehicles

Similar Documents

Publication Publication Date Title
US12374126B2 (en) Obstacle detection method and apparatus, computer device, and storage medium
EP3321842B1 (en) Lane line recognition modeling method, apparatus, storage medium, and device, recognition method and apparatus, storage medium, and device
US12175770B2 (en) Lane extraction method using projection transformation of three-dimensional point cloud map
US10423860B1 (en) Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
CN114299457A (en) Accumulated water depth detection method and device
GB2493249A (en) Context searching in images for target object
CN112257668A (en) Main and auxiliary road judging method and device, electronic equipment and storage medium
CN111738033B (en) Vehicle driving information determination method and device based on plane segmentation and vehicle-mounted terminal
US20210398300A1 (en) System and Method for Aerial to Ground Registration
EP4287137B1 (en) Method, device, equipment, storage media and system for detecting drivable space of road
CN113836251B (en) Cognitive map construction method, device, equipment and medium
CN113496163A (en) Obstacle identification method and device
CN120677516A (en) Parking space detection method and system
CN112837404B (en) Method and device for constructing three-dimensional information of planar object
Sagar et al. A vison based lane detection approach using vertical lane finder method
CN111860084B (en) Image feature matching and positioning method and device and positioning system
US11138448B2 (en) Identifying a curb based on 3-D sensor data
Ballardini et al. Ego-lane estimation by modeling lanes and sensor failures
CN117893990B (en) Road sign detection method, device and computer equipment
Kadhim et al. Detect Lane Line for Self-Driving Car Using Hue Saturation Lightness and Hue Saturation Value Color Transformation.
WO2021056307A1 (en) Systems and methods for detecting lane markings for autonomous driving
Li et al. Lane detection and road surface reconstruction based on multiple vanishing point & symposia
US10373004B1 (en) Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image
WO2021142564A1 (en) Systems and methods for detecting lane markings for autonamous driving
Widyaningrum et al. Tailored features for semantic segmentation with a DGCNN using free training samples of a colored airborne point cloud

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19947121

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19947121

Country of ref document: EP

Kind code of ref document: A1